AIトークンカウンター — 任意のLLMのトークンをカウント

Tokenとは何ですか？

A token はAI言語モデルが処理するテキストの基本単位です。tokenは単語ではなく、モデルのtokenizerによって決定される文字のかたまりです。一般的な英単語は通常1つのtokenになりますが、まれな単語、コードの記号、非-Latinスクリプトは複数のtokenに分割されることが多いです。

Token counts が重要な理由は APIのコストはtokenごとに請求されます, コンテキストウィンドウはtokenで測定され、非英語のテキストは同等の英語より通常2–3×多くのtokenを消費します。 → Tokenとは？

このカウンターの仕組み

このツールは tiktoken (GPT-4o's tokenizer, o200k_base)を使って正確にtokenをカウントします。 ClaudeやLlamaなど他のモデルでは各プロバイダが独自のtokenizerを使用するため、結果は異なりますが、予算見積もりや計画には十分に近いです。

多言語に関する注意： Englishは最もtoken効率の高い言語です。tokenizersは主にEnglishのテキストで訓練されているためです。同じ文はUkrainianではおおよそ2×多くのtokenを消費します；ArabicやJapaneseも同様です。

一般的な利用例

プロンプト最適化 — 本番にデプロイする前にシステムプロンプトを削減する
コスト見積もり — 数百万回の呼び出しにスケールする前にAPIの支出を計算する
コンテキストウィンドウの計画 — プロンプトとドキュメントがモデルの制限内に収まることを確認する
多言語の予算管理 — 非英語コンテンツの実際のtokenコストを測定する
RAG chunking — ドキュメントのチャンクのサイズを調整して検索予算に合わせる

よくある質問

AIにおけるTokenとは？

A tokenはテキストのかたまりです — 英語では通常3〜4文字程度です。単語「token」は1つのtokenです；「tokenization」は2つに分かれる場合があります。句読点や空白もしばしば別個のtokenになります。Modelsは単語や文字ではなくtokenを処理します。

1000語は何 tokens ですか？

標準的な英語散文では、おおよそ 1,300–1,500 tokens. 概算ルール：1語 ≈ 1.3 tokens。コードや非英語のテキストは大きく異なります。

これはClaudeやGeminiのtokensを正確にカウントしますか？

正確ではありません — Claude、Gemini、Llama、その他のモデルはそれぞれ公開されていない独自のtokenizersを使用しています。このツールはtiktoken (GPT-4o's tokenizer) を使用しており、ほとんどの最新LLMの計画や予算立てには十分に近い推定を提供します。正確なカウントが必要な場合は、各プロバイダの公式tokenizerツールを使用してください。

なぜ非英語のテキストはより多くの tokens を消費するのですか？

Tokenizersは主にEnglishテキストで訓練されているため、英単語は効率的に1つのtokenに対応します。Cyrillic、Arabic、CJKなどのスクリプトの文字は訓練データでは少なく、より多くのサブワードtokenに分割されます。同じ内容はUkrainianでは通常Englishより約2×多くのtokenを消費します。

このツールは私のテキストをサーバーに送信しますか？

いいえ。TokenizationはtiktokenライブラリがWebAssemblyにコンパイルされてブラウザ内で完全に実行されます。あなたのテキストはデバイスを離れません。アカウント不要、APIキー不要で、初回ロード後はオフラインで動作します。

現代のLLMのコンテキストウィンドウはどのくらいの大きさですか？

コンテキストウィンドウの大きさは大きく異なります：GPT-4oは128K tokensをサポートし、Claude 3.7 Sonnetは200Kを、 Gemini 2.0 Flashは1M tokensをサポートします。各プロバイダの最新のドキュメントを確認してください — 制限は頻繁に拡大しています。128K tokensはおおよそ96,000語、または約300ページ分のテキストに相当します。