AI 토큰 카운터

모든 LLM의 토큰을 계산합니다. GPT-4o에 대해서는 tiktoken을 통해 정확하며 Claude, Llama 및 기타 모델의 기준점으로 유용합니다.

모든 토큰화 과정은 브라우저에서 로컬로 실행됩니다. 텍스트가 서버로 전송되거나 저장되지 않습니다.
예시:

토큰이란 무엇인가?

A token 토큰은 AI 언어 모델이 처리하는 텍스트의 기본 단위입니다. 토큰은 단어가 아니라 모델의 토크나이저에 의해 결정되는 문자 덩어리입니다. 일반적인 영어 단어는 보통 한 토큰이고, 드문 단어, 코드 기호, 비라틴 문자들은 여러 토큰으로 분리되는 경우가 많습니다.

토큰 수가 중요한 이유는 API 비용이 토큰 단위로 청구되기 때문입니다, 컨텍스트 창은 토큰으로 측정되며, 비영어 텍스트는 동일한 내용의 영어보다 일반적으로 2–3배 더 많은 토큰을 사용합니다. → 토큰이란 무엇인가?

이 카운터는 어떻게 작동하나요

이 도구는 정확한 토큰 수를 계산하기 위해 tiktoken (GPT-4o's tokenizer, o200k_base)를 사용합니다. Claude나 Llama 같은 다른 모델의 경우 각 제공자가 독점적인 토크나이저를 사용하므로 결과가 다르지만 예산 책정과 계획에는 충분히 근접합니다.

다국어 참고: 영어는 토큰 효율성이 가장 높은 언어입니다. 토크나이저가 주로 영어 텍스트로 훈련되기 때문입니다. 같은 문장을 우크라이나어로 표현하면 대략 2배 더 많은 토큰을 사용합니다; 아랍어와 일본어도 이와 유사합니다.

일반적인 사용 사례

  • 프롬프트 최적화 — 프로덕션에 배포하기 전에 시스템 프롬프트를 줄입니다
  • 비용 추정 — 수백만 건으로 확장하기 전에 API 지출을 계산합니다
  • 컨텍스트 창 계획 — 프롬프트와 문서가 모델 한도 내에 들어가는지 확인합니다
  • 다국어 예산 편성 — 비영어 콘텐츠의 실제 토큰 비용을 측정합니다
  • RAG 청킹 — 검색 예산에 맞게 문서 청크의 크기를 조정합니다

자주 묻는 질문

AI에서 토큰이란 무엇인가요?

토큰은 텍스트의 덩어리입니다 — 영어의 경우 일반적으로 3–4자 정도입니다. 단어 "token"은 하나의 토큰이고, "tokenization"은 두 개로 분리될 수 있습니다. 구두점과 공백도 종종 별도의 토큰이 됩니다. 모델은 단어가 아니라 토큰을 처리합니다.

1000단어는 몇 토큰인가요?

표준 영어 산문에서는 대략 1,300–1,500 토큰. 대략적인 규칙: 1단어 ≈ 1.3 토큰입니다. 코드와 비영어 텍스트는 크게 다를 수 있습니다.

이 도구가 Claude나 Gemini의 토큰을 정확하게 계산하나요?

정확하지 않습니다 — Claude, Gemini, Llama 등 다른 모델은 각자 공개되지 않은 독점 토크나이저를 사용합니다. 이 도구는 tiktoken (GPT-4o's tokenizer)을 사용하여 대부분의 최신 LLM에 대해 계획과 예산 책정에 충분히 근접한 추정치를 제공합니다. 정확한 수치를 얻으려면 각 제공자의 공식 토크나이저 도구를 사용하세요.

비영어 텍스트가 토큰을 더 많이 소비하는 이유는?

토크나이저는 주로 영어 텍스트로 훈련되기 때문에 영어 단어는 한 토큰으로 효율적으로 매핑됩니다. 키릴 문자(Cyrillic), 아랍 문자(Arabic), CJK 같은 다른 스크립트의 문자들은 훈련 데이터에서 덜 일반적이어서 더 많은 서브워드 토큰으로 분리됩니다. 같은 내용은 우크라이나어로 표현하면 영어보다 대략 2배 더 많은 토큰을 사용합니다.

이 도구가 내 텍스트를 어떤 서버로 전송하나요?

아니요. 토크나이제이션은 tiktoken 라이브러리를 WebAssembly로 컴파일하여 완전히 브라우저에서 실행됩니다. 입력한 텍스트는 기기를 벗어나지 않습니다. 계정이나 API 키가 필요 없으며, 최초 로드 후 오프라인으로 작동합니다.

현대 LLM의 컨텍스트 창 크기는 얼마나 되나요?

컨텍스트 창의 크기는 매우 다양합니다: GPT-4o는 128K 토큰을 지원하고, Claude 3.7 Sonnet은 200K를, Gemini 2.0 Flash는 1M을 지원합니다. 각 제공자의 최신 문서를 확인하세요 — 한계치는 자주 증가합니다. 128K 토큰은 대략 96,000단어 또는 약 300페이지 분량입니다.