AI Token Counter

Herhangi bir LLM için token'ları sayın. GPT-4o için tiktoken ile kesin, Claude, Llama ve diğer modeller için temel bir referans olarak faydalı.

Tüm tokenizasyon tarayıcınızda yerel olarak çalışır. Hiçbir metin sunucularımıza gönderilmez veya herhangi bir yerde depolanmaz.
Deneyin:

Token nedir?

A token metinlerin işlem gördüğü temel birimdir. Token'lar kelimeler değildir — modelin tokenizer'ı tarafından belirlenen karakter parçalarıdır. Yaygın İngilizce kelimeler genellikle tek bir token iken; nadir kelimeler, kod sembolleri ve Latin olmayan yazılar sıklıkla birden fazla tokene bölünür.

Token sayıları önemlidir çünkü API maliyetleri token başına faturalandırılır, bağlam pencereleri token olarak ölçülür ve İngilizce olmayan metinler eşdeğer İngilizce metne göre genellikle 2–3× daha fazla token gerektirir. → Token nedir?

Bu Sayacın Çalışma Şekli

Bu araç tiktoken'i kullanır tiktoken (GPT-4o's tokenizer, o200k_base) tokenleri tam olarak saymak için. Claude ve Llama gibi diğer modeller için her sağlayıcı kendi özel tokenizer'ını kullanır — bu nedenle sonuçlar farklılık gösterebilir, ancak bütçeleme ve planlama için yeterince yakındır.

Çok dilli not: İngilizce, token verimliliği en yüksek dilidir çünkü tokenizer'lar öncelikle İngilizce metin üzerinde eğitilmiştir. Aynı cümlenin Ukraynaca karşılığı yaklaşık 2× daha fazla token tutar; Arapça ve Japonca da benzer şekilde daha maliyetlidir.

Yaygın Kullanım Durumları

  • Prompt optimizasyonu — üretime dağıtmadan önce system prompt'ları kısaltın
  • Maliyet tahmini — milyonlarca çağrıya ölçeklemeden önce API harcamalarını hesaplayın
  • Bağlam penceresi planlaması — prompt'unuzun + belgelerinizin model sınırına sığdığından emin olun
  • Çok dilli bütçeleme — İngilizce olmayan içerikler için gerçek token maliyetlerini ölçün
  • RAG chunking — belge parçalarını retrieval bütçelerine uyduracak şekilde boyutlandırın

Sık Sorulan Sorular

AI'de token nedir?

Token, genellikle İngilizce için 3–4 karakterlik bir metin parçasıdır. "token" kelimesi bir token'dır; "tokenization" ikiye bölünebilir. Noktalama işaretleri ve boşluklar sıklıkla ayrı token'lar olur. Modeller token'ları işler, kelimeleri veya karakterleri değil.

1000 kelime kaç token eder?

Standart İngilizce düzyazı için yaklaşık 1.300–1.500 tokens. Kabaca bir kural: 1 kelime ≈ 1.3 token. Kod ve İngilizce olmayan metinler önemli ölçüde farklılık gösterebilir.

Bu, Claude veya Gemini token sayılarını doğru mu sayıyor?

Tam olarak değil — Claude, Gemini, Llama ve diğer modeller her biri kendi özel tokenizer'larını kullanır ve bunlar herkese açık değildir. Bu araç tiktoken (GPT-4o's tokenizer) kullanır; bu, çoğu modern LLM için planlama ve bütçeleme açısından yeterince yakın bir tahmin sağlar. Kesin sayılar için her sağlayıcının resmi tokenizer aracını kullanın.

İngilizce olmayan metinler neden daha fazla token maliyeti gerektirir?

Tokenizer'lar öncelikle İngilizce metin üzerinde eğitildiğinden İngilizce kelimeler verimli şekilde tek token'a eşlenir. Diğer alfabelerden gelen karakterler (Cyrillic, Arabic, CJK) eğitim verisinde daha az yaygın olduğu için daha fazla alt-kelime tokenlarına bölünür. Aynı fikir Ukraynaca için tipik olarak İngilizceye göre ~2× daha fazla token maliyeti doğurur.

Bu araç metnimi herhangi bir sunucuya gönderir mi?

Hayır. Tokenizasyon tamamen tarayıcınızda, WebAssembly'ye derlenmiş tiktoken kütüphanesi kullanılarak çalışır. Metniniz cihazınızdan asla çıkmaz. Hesap veya API anahtarı gerektirmez; ilk yüklemeden sonra çevrimdışı çalışır.

Modern LLM'lerin bağlam pencereleri ne kadar büyük?

Bağlam pencereleri büyük ölçüde değişir: GPT-4o 128K token, Claude 3.7 Sonnet 200K token ve Gemini 2.0 Flash 1M token destekler. Her sağlayıcının güncel belgelerini kontrol edin — sınırlar sık sık büyür. 128K token yaklaşık 96.000 kelimeye veya ~300 sayfa metne tekabül eder.