Що таке токен?
A token це базова одиниця тексту, яку обробляють мовні моделі ШІ. Токени — не слова — це фрагменти символів, які визначає токенізатор моделі. Звичайні англійські слова зазвичай становлять один токен; рідкісні слова, символи коду та нелатинські абетки часто розбиваються на кілька токенів.
Підрахунок токенів важливий, бо витрати API нараховуються за токен, вікна контексту вимірюються в токенах, і текст неанглійською зазвичай коштує у 2–3× більше токенів, ніж еквівалентний англійський. → Що таке токен?
Як працює цей лічильник
Цей інструмент використовує tiktoken (GPT-4o's tokenizer, o200k_base) для точного підрахунку токенів. Для інших моделей, таких як Claude і Llama, кожен провайдер використовує приватний токенізатор — тому результати відрізнятимуться, але достатньо близькі для бюджетування та планування.
Примітка щодо багатомовності: Англійська — найефективніша з точки зору токенів мова, оскільки токенізатори навчені переважно на англомовному тексті. Та сама фраза українською приблизно коштує у 2× більше токенів; арабська та японська схожі.
Поширені сценарії використання
- Оптимізація підказок — скоротити системні підказки перед розгортанням у продакшені
- Оцінка витрат — обчислити витрати на API перед масштабуванням до мільйонів викликів
- Планування вікна контексту — переконатися, що ваша підказка + документи поміщаються в межі моделі
- Багатомовне бюджетування — виміряти фактичні витрати токенів для контенту неанглійською
- RAG-розбиття — підігнати розмір фрагментів документів під бюджет витягання
Часті запитання
Що таке токен у ШІ?
Токен — це фрагмент тексту — зазвичай 3–4 символи для англійської. Слово "token" — це один токен; "tokenization" може розбиватися на два. Знаки пунктуації та пробіли часто є окремими токенами. Моделі обробляють токени, а не слова чи символи.
Скільки токенів у 1000 словах?
Для стандартної англійської прози приблизно 1,300–1,500 tokens. Приблизне правило: 1 слово ≈ 1.3 токена. Код та текст неанглійською значно відрізнятимуться.
Чи рахує це точно токени Claude або Gemini?
Не зовсім — Claude, Gemini, Llama та інші моделі кожен використовують власні приватні токенізатори, які недоступні публічно. Цей інструмент використовує tiktoken (GPT-4o's tokenizer), що дає достатньо точну оцінку для планування та бюджетування для більшості сучасних LLMs. Для точних підрахунків використовуйте офіційний токенізатор кожного провайдера.
Чому текст неанглійською мовою коштує дорожче в токенах?
Токенізатори навчені переважно на англомовному тексті, тому англійські слова ефективно відображаються в один токен. Символи з інших абеток (Cyrillic, Arabic, CJK) менш поширені в навчальних даних і розбиваються на більше підсловесних токенів. Та сама ідея українською зазвичай коштує приблизно у 2× більше токенів, ніж англійською.
Чи надсилає цей інструмент мій текст на будь-який сервер?
Ні. Токенізація виконується повністю у вашому браузері з використанням бібліотеки tiktoken, скомпільованої до WebAssembly. Ваш текст ніколи не покидає ваш пристрій. Ніякого акаунту, ніякого API ключа, працює в офлайні після першого завантаження.
Наскільки великі контекстні вікна сучасних LLM?
Вікна контексту значно відрізняються: GPT-4o підтримує 128K tokens, Claude 3.7 Sonnet підтримує 200K, а Gemini 2.0 Flash підтримує 1M tokens. Перевіряйте поточну документацію кожного провайдера — обмеження часто зростають. 128K tokens приблизно відповідає 96 000 словам або ~300 сторінкам тексту.