AI Token Counter

Підраховуйте токени для будь-якого LLM. Точно за допомогою tiktoken для GPT-4o, корисно як базова оцінка для Claude, Llama та інших моделей.

Уся токенізація виконується локально у вашому браузері. Жоден текст не надсилається на наші сервери й ніде не зберігається.
Спробуйте:

Що таке токен?

A token це базова одиниця тексту, яку обробляють мовні моделі ШІ. Токени — не слова — це фрагменти символів, які визначає токенізатор моделі. Звичайні англійські слова зазвичай становлять один токен; рідкісні слова, символи коду та нелатинські абетки часто розбиваються на кілька токенів.

Підрахунок токенів важливий, бо витрати API нараховуються за токен, вікна контексту вимірюються в токенах, і текст неанглійською зазвичай коштує у 2–3× більше токенів, ніж еквівалентний англійський. → Що таке токен?

Як працює цей лічильник

Цей інструмент використовує tiktoken (GPT-4o's tokenizer, o200k_base) для точного підрахунку токенів. Для інших моделей, таких як Claude і Llama, кожен провайдер використовує приватний токенізатор — тому результати відрізнятимуться, але достатньо близькі для бюджетування та планування.

Примітка щодо багатомовності: Англійська — найефективніша з точки зору токенів мова, оскільки токенізатори навчені переважно на англомовному тексті. Та сама фраза українською приблизно коштує у 2× більше токенів; арабська та японська схожі.

Поширені сценарії використання

  • Оптимізація підказок — скоротити системні підказки перед розгортанням у продакшені
  • Оцінка витрат — обчислити витрати на API перед масштабуванням до мільйонів викликів
  • Планування вікна контексту — переконатися, що ваша підказка + документи поміщаються в межі моделі
  • Багатомовне бюджетування — виміряти фактичні витрати токенів для контенту неанглійською
  • RAG-розбиття — підігнати розмір фрагментів документів під бюджет витягання

Часті запитання

Що таке токен у ШІ?

Токен — це фрагмент тексту — зазвичай 3–4 символи для англійської. Слово "token" — це один токен; "tokenization" може розбиватися на два. Знаки пунктуації та пробіли часто є окремими токенами. Моделі обробляють токени, а не слова чи символи.

Скільки токенів у 1000 словах?

Для стандартної англійської прози приблизно 1,300–1,500 tokens. Приблизне правило: 1 слово ≈ 1.3 токена. Код та текст неанглійською значно відрізнятимуться.

Чи рахує це точно токени Claude або Gemini?

Не зовсім — Claude, Gemini, Llama та інші моделі кожен використовують власні приватні токенізатори, які недоступні публічно. Цей інструмент використовує tiktoken (GPT-4o's tokenizer), що дає достатньо точну оцінку для планування та бюджетування для більшості сучасних LLMs. Для точних підрахунків використовуйте офіційний токенізатор кожного провайдера.

Чому текст неанглійською мовою коштує дорожче в токенах?

Токенізатори навчені переважно на англомовному тексті, тому англійські слова ефективно відображаються в один токен. Символи з інших абеток (Cyrillic, Arabic, CJK) менш поширені в навчальних даних і розбиваються на більше підсловесних токенів. Та сама ідея українською зазвичай коштує приблизно у 2× більше токенів, ніж англійською.

Чи надсилає цей інструмент мій текст на будь-який сервер?

Ні. Токенізація виконується повністю у вашому браузері з використанням бібліотеки tiktoken, скомпільованої до WebAssembly. Ваш текст ніколи не покидає ваш пристрій. Ніякого акаунту, ніякого API ключа, працює в офлайні після першого завантаження.

Наскільки великі контекстні вікна сучасних LLM?

Вікна контексту значно відрізняються: GPT-4o підтримує 128K tokens, Claude 3.7 Sonnet підтримує 200K, а Gemini 2.0 Flash підтримує 1M tokens. Перевіряйте поточну документацію кожного провайдера — обмеження часто зростають. 128K tokens приблизно відповідає 96 000 словам або ~300 сторінкам тексту.