AI Token Counter

Bilangin ang tokens para sa anumang LLM. Eksakto gamit ang tiktoken para sa GPT-4o, kapaki-pakinabang bilang baseline para sa Claude, Llama, at iba pang mga modelo.

Lahat ng tokenization ay tumatakbo nang lokal sa iyong browser. Walang tekstong ipinapadala sa aming mga server o iniimbak kahit saan.
Subukan:

Ano ang Token?

A token ay ang pangunahing yunit ng teksto na pinoproseso ng mga AI language model. Hindi mga salita ang Tokens — ito ay mga piraso ng mga karakter na tinutukoy ng model's tokenizer. Ang karaniwang mga salita sa Ingles ay kadalasang isang token; ang mga bihirang salita, simbolo ng code, at mga hindi-Latin na script ay madalas hatiin sa maraming tokens.

Mahalaga ang bilang ng tokens dahil Ang mga gastos sa API ay sinisingil kada token, ang context windows ay sinusukat sa tokens, at ang mga tekstong hindi Ingles ay karaniwang nagkakahalaga ng 2–3× higit pang tokens kaysa katumbas na Ingles. → Ano ang token?

Paano Gumagana ang Counter na Ito

Ang tool na ito ay gumagamit ng tiktoken (GPT-4o's tokenizer, o200k_base) upang eksaktong bilangin ang tokens. Para sa iba pang mga modelo tulad ng Claude at Llama, gumagamit ang bawat provider ng kanilang sariling proprietary tokenizer — kaya mag-iiba ang mga resulta, ngunit sapat na malapit para sa pagtataya ng gastos at pagpaplano.

Tala tungkol sa maraming wika: Ang Ingles ang pinaka-efficient sa tokens na wika dahil ang mga tokenizers ay sinanay pangunahing sa English na teksto. Ang parehong pangungusap sa Ukrainian ay nagkakahalaga ng humigit-kumulang 2× higit pang tokens; katulad din ang Arabic at Japanese.

Karaniwang Mga Kaso ng Paggamit

  • Pag-optimize ng prompt — bawasan ang mga system prompt bago i-deploy sa production
  • Pagtataya ng gastos — kalkulahin ang gastos sa API bago mag-scale sa milyong tawag
  • Pagpaplano ng window ng konteksto — tiyakin na ang iyong prompt + mga dokumento ay kasya sa loob ng limit ng modelo
  • Pagba-budget para sa maraming wika — sukatin ang aktwal na gastos sa tokens para sa mga tekstong hindi Ingles
  • RAG chunking — sukatin ang mga piraso ng dokumento upang magkasya sa badyet ng retrieval

Mga Madalas na Itanong

Ano ang token sa AI?

Ang token ay isang piraso ng teksto — karaniwang 3–4 na karakter para sa English. Ang salitang "token" ay isang token; ang "tokenization" ay maaaring hatiin sa dalawa. Ang bantas at mga espasyo ay madalas magkahiwalay na tokens. Pinoproseso ng mga modelo ang tokens, hindi mga salita o karakter.

Ilan na tokens ang 1000 salita?

Para sa karaniwang English na prosa, humigit-kumulang 1,300–1,500 tokens. Isang paunang tuntunin: 1 salita ≈ 1.3 tokens. Magkakaiba nang malaki ang code at mga tekstong hindi Ingles.

Tama ba nitong binibilang ang tokens ng Claude o Gemini?

Hindi eksakto — ang Claude, Gemini, Llama, at iba pang mga modelo ay gumagamit ng kanilang sariling proprietary tokenizers na hindi pampubliko. Ang tool na ito ay gumagamit ng tiktoken (GPT-4o's tokenizer), na nagbibigay ng sapat na malapít na pagtatantya para sa pagtataya at pagba-budget sa karamihan ng modernong LLMs. Para sa eksaktong bilang, gamitin ang opisyal na tokenizer tool ng bawat provider.

Bakit mas maraming tokens ang nagagastos para sa mga tekstong hindi Ingles?

Sinasanay ang mga tokenizers pangunahing sa English na teksto, kaya ang mga salitang English ay nagmamapa sa iisang token nang mahusay. Ang mga karakter mula sa ibang mga script (Cyrillic, Arabic, CJK) ay hindi gaanong karaniwan sa training data at naghahati sa higit pang mga sub-word tokens. Ang parehong ideya sa Ukrainian ay karaniwang nagkakahalaga ng humigit-kumulang 2× higit pang tokens kaysa sa English.

Ipinapadala ba ng tool na ito ang aking teksto sa anumang server?

Hindi. Ang tokenization ay ginagawa nang buo sa iyong browser gamit ang tiktoken library na naka-compile sa WebAssembly. Hindi umaalis sa iyong device ang iyong teksto. Walang account, walang API key, gumagana offline pagkatapos ng unang pag-load.

Gaano kalaki ang mga modernong LLM context windows?

Nag-iiba nang malaki ang context windows: sinusuportahan ng GPT-4o ang 128K tokens, sinusuportahan ng Claude 3.7 Sonnet ang 200K, at sinusuportahan ng Gemini 2.0 Flash ang 1M tokens. Suriin ang kasalukuyang dokumentasyon ng bawat provider — madalas lumalawak ang mga limitasyon. Ang 128K tokens ay humigit-kumulang 96,000 salita o ~300 pahina ng teksto.