
Claude トークンとは|上限・日本語換算・消費を減らす方法
Claude を使っていると「トークンが上限に達しました」や「使用量が制限に近づいています」といった通知を目にすることがある。このトークンとは何か、なぜ日本語ユーザーは特に気にする必要があるのか、どうすれば節約できるのかを、Anthropic 公式情報をもとに整理する。
トークン は Claude がテキストを処理する最小単位で、英語約4文字 ≒ 1トークン・日本語1文字 ≒ 1〜2トークン(平均1.5)が目安。日本語は英語より多くのトークンを消費するため、日本語ユーザーは会話の持続時間やコストにより大きな影響を受ける。プラン別の制限は非公開だが、Free → Pro → Max の順で使用量上限が拡大し、Max は Pro の5倍または20倍の使用量が保証される。トークン消費を抑えるには、会話のリセット・プロンプトの簡潔化・モデルの使い分けが有効。
目次 (19)
- Claude のトークンとは
- 日本語はなぜ多くトークンを消費するのか
- コンテキストウィンドウとトークンの関係
- 2026年時点のモデル別コンテキストウィンドウ
- プラン別のトークン使用制限
- 5時間リセットの仕組み
- トークン消費を減らす実践法
- 1. 会話を新しく始める
- 2. プロンプトを簡潔にする
- 3. 大きなファイルは必要部分だけ引用する
- 4. 軽量モデルを使い分ける
- 5. Claude Code では .claudeignore を活用する
- 6. 長い会話を「要約してリセット」するテクニック
- API でトークンを事前計測する(開発者向け)
- よくある質問
- トークンが上限に達したらどうなる?
- 画像や PDF を添付するとトークンを消費する?
- プロンプトキャッシングとは?
- 日本語より英語でプロンプトを書いた方がトークンは節約できる?
Claude のトークンとは
トークン(token)は、Claude がテキストを読み書きする際に使う処理の最小単位だ。人間が「文字」や「単語」を単位としてテキストを読むように、Claude は「トークン」という単位でテキストを認識・生成する。
技術的には BPE(Byte Pair Encoding) というアルゴリズムで生成される。単語や文字をそのまま使うのではなく、頻出パターンをひとまとめにした「サブワード単位」に分割する方式だ。たとえば英語では "running" が "runn" + "ing" の2トークンに分割されることがある。
Anthropic は Claude モデル全体で統一のトークナイザーを使用しており、2026年時点では Claude Opus 4.7 から導入された新しいトークナイザーが最新モデルに採用されている(参照: Anthropic 公式モデル一覧)。
日本語はなぜ多くトークンを消費するのか
英語と日本語では、トークンへの変換効率(tokenization efficiency)が大きく異なる。
| 言語 | 目安 |
|---|---|
| 英語 | 約4文字 ≒ 1トークン |
| 日本語 | 1文字 ≒ 1〜2トークン(平均 約1.5トークン) |
英語は基本的にアルファベット26文字の組み合わせであり、頻出パターンをまとめやすいため効率が高い。一方、日本語はひらがな・カタカナ・漢字・記号が混在し、トークナイザーが1文字を複数トークンに分割するケースが多い。
具体例:
Hello→ 約1〜2トークンこんにちは→ 約7〜8トークン(5文字)
この差は、同じ意味内容を日本語で書くと英語に比べて1.5〜2倍のトークンを消費する可能性があることを意味する。月額制プランの使用上限がトークン数基準で管理されている場合、日本語ユーザーはより早く上限に近づく計算になる。
なお、Claude Opus 4.7 以降に採用された新しいトークナイザーは、旧来のモデルと比べて同じテキストで約30%多くのトークンを生成する。API 利用者はモデル移行時にこの変化を考慮する必要がある(参照: トークンカウント公式ドキュメント)。
コンテキストウィンドウとトークンの関係
「コンテキストウィンドウ」は、Claude が1回の会話で参照できるトークンの総量を指す。会話の中に含まれる次の要素すべてが、コンテキストウィンドウを消費する。
- システムプロンプト(指示文)
- 過去の会話履歴(ユーザー発言 + Claude の返答)
- 現在の入力メッセージ
- Claude の出力
長い会話を続けるほど蓄積されるトークンが増え、コンテキストウィンドウが満杯に近づく。上限に達すると Claude は古い会話を「忘れる」か、それ以上の返答ができなくなる。
2026年時点のモデル別コンテキストウィンドウ
| モデル | コンテキストウィンドウ | 最大出力 |
|---|---|---|
| Claude Opus 4.8 | 100万トークン | 128,000トークン |
| Claude Sonnet 4.6 | 100万トークン | 64,000トークン |
| Claude Haiku 4.5 | 20万トークン | 64,000トークン |
| Claude Fable 5 | 100万トークン | 128,000トークン |
100万トークンは約75万語(英語)または日本語換算で約50〜70万文字に相当する。書籍数冊分のテキストを一度に扱えるサイズだが、長大な会話を重ねれば徐々に消費される(参照: Anthropic モデル概要)。
プラン別のトークン使用制限
Claude.ai では複数のプランが提供されており、使用量の上限はプランによって異なる。Anthropic は具体的なトークン数を公式には開示していないが、プラン間の関係は明確にされている。
| プラン | 月額(年払い) | 使用量の目安 |
|---|---|---|
| Free | 無料 | 基本的な使用量(制限あり) |
| Pro | $17〜$20 | Free より大幅に多い |
| Max | $100〜 | Pro の5倍または20倍 |
| Team | $20〜$100 / 座席 | チーム向け(Pro 相当以上) |
Max プランは「5x」と「20x」の2種類が存在し、用途に応じて選択する(参照: claude.com/pricing)。
5時間リセットの仕組み
Claude は「5時間セッション制限」と呼ばれる仕組みを持っており、一定時間内の使用量が上限を超えると一時的に制限される。制限は5時間が経過すると自動的にリセットされる。Claude Code を集中的に使うケースでは、Max プランでも5時間以内に制限に達することがあると報告されている。
トークン消費を減らす実践法
トークン消費を抑えることで、同じプランでもより長く・より多くの作業を進められる。
1. 会話を新しく始める
最も効果的な方法が会話のリセットだ。Claude は過去のすべての発言を記憶しながら返答するため、長い会話ほどトークンを多く消費する。新しいトピックに移る際は「新しい会話を開始」して、不要な履歴を切り捨てる。
2. プロンプトを簡潔にする
長い前置きや重複した説明はそのままトークンの無駄遣いになる。求めることを端的に一文で伝える習慣をつけるだけで、消費トークンを数十〜数百単位削減できる。
3. 大きなファイルは必要部分だけ引用する
コードや文書全体を貼り付けるのではなく、質問に関係する部分だけを抜粋して提示する。「このファイルの100〜150行目について質問したい」と伝えてから該当箇所だけを引用する方が効率的だ。
4. 軽量モデルを使い分ける
簡単な質問や定型作業には Haiku 4.5(軽量・高速・低コスト)を使い、複雑な推論や長文タスクには Sonnet や Opus を使うという切り分けが有効だ。Claude.ai の会話設定でモデルを選択できる。
5. Claude Code では .claudeignore を活用する
Claude Code(コーディング補助ツール)を使う場合は .claudeignore ファイルで不要なディレクトリ(node_modules や dist など)を除外することで、コンテキストに読み込まれるファイル量を大幅に削減できる。
GMO グループの技術ブログでは、Claude Code のトークンマネジメント手法として「Codex への作業分散」「小タスクへの分割」「effortパラメータの調整」が有効とされており、月額100ドルの Max プランでも消費量を管理できると報告されている(参照: Claude Codeトークンマネジメント)。
6. 長い会話を「要約してリセット」するテクニック
会話が長くなってきたタイミングで「ここまでの内容を200字で要約して」とまず Claude に依頼し、その要約だけを新しい会話のシステムプロンプトに貼り直す。こうすることで過去のコンテキストを保持しつつ、消費済みトークンを大幅にリセットできる。
API でトークンを事前計測する(開発者向け)
Claude API を使う開発者は、メッセージを実際に送信する前にトークン数を確認できる。
Anthropic はこのために count_tokens エンドポイントを提供している。送信予定のメッセージを用意し、エンドポイントに問い合わせると input_tokens の推定値が返ってくる。
curl https://api.anthropic.com/v1/messages/count_tokens \
--header "x-api-key: $ANTHROPIC_API_KEY" \
--header "content-type: application/json" \
--header "anthropic-version: 2023-06-01" \
--data '{
"model": "claude-opus-4-8",
"system": "You are a helpful assistant",
"messages": [{"role": "user", "content": "こんにちは、Claudeです"}]
}'
レスポンス例:
{ "input_tokens": 18 }
このエンドポイントは無料で使用できる(レート制限あり)。これを活用することで、実際にメッセージを送る前にコストやコンテキストウィンドウへの影響を見積もることができる(参照: Anthropic トークンカウント公式ドキュメント)。
テキストのほかに画像・PDF・ツール定義のトークンも事前計測できる。画像1枚あたりのトークン消費は内容・解像度によって数百〜数千トークンに及ぶため、画像を多用するアプリケーションでは特に有効だ。
よくある質問
トークンが上限に達したらどうなる?
Claude.ai の場合、5時間の使用量上限に達すると一時的に制限され、「制限を超えました」といった通知が表示される。5時間後に自動的にリセットされる仕組みだ。プランをアップグレードするか、時間をおいて再試行することが対処法になる。エラーの種類と対処法の詳細については「Claude 利用上限エラー」の記事で解説している。
画像や PDF を添付するとトークンを消費する?
はい、画像・PDF・文書ファイルも入力トークンとしてカウントされる。高解像度の画像は低解像度より多くのトークンを消費する傾向がある。count_tokens エンドポイントを使えば、添付前にトークン数を確認することもできる。
プロンプトキャッシングとは?
API 利用者向けの機能で、同じシステムプロンプトを繰り返し使う場合にキャッシュ処理でコストを最大90%削減できる仕組みだ。Claude.ai(ブラウザ版)のユーザーは意識する必要がないが、API コストを抑えたい開発者には重要な最適化手法になる。
日本語より英語でプロンプトを書いた方がトークンは節約できる?
理論上は英語の方がトークン効率が高い。ただし、翻訳の手間や意図のズレによる再試行コストも考慮すると、日本語ネイティブのユーザーが無理に英語にする利点は限定的だ。重要なプロジェクトや繰り返し使う定型指示文(システムプロンプト)を英語化する程度が現実的なバランスになる。