
Vertex AI Claude の料金|Opus/Sonnet 単価・Bedrock 比較
「Vertex AI で Claude を使うとコストはいくらか」「Anthropic に直接契約せずに Google Cloud の請求にまとめられるか」——この 2 点が「vertex claude pricing」の検索意図の核心です。本記事では Anthropic 公式料金ドキュメント(platform.claude.com/docs/en/about-claude/pricing)と Google Cloud Vertex AI 公式情報をもとに、モデル別単価・地域エンドポイントの 10% プレミアム・Batch API・Prompt Caching の料金構造をまとめます。
Vertex AI 上の Claude 料金は Anthropic 直 API と同一の基本単価です。Opus 4.8 が入力 $5 / 出力 $25(100 万トークンあたり)、Sonnet 4.6 が入力 $3 / 出力 $15、Haiku 4.5 が入力 $1 / 出力 $5 という体系が Vertex AI でもそのまま適用されます。ただし地域エンドポイント(リージョナル/マルチリージョン)を選ぶとグローバル比で 10% のプレミアムが上乗せされます。コスト削減の主な手段は Batch API(50% 割引)と Prompt Caching(キャッシュヒット時に入力単価の 10% まで圧縮)の組み合わせです。課金は GCP 請求アカウントに統合されるため、Anthropic 側にクレジットを別途チャージせず、既存の Google Cloud 予算管理で Claude を使いたい組織に適した選択肢です。
目次 (8)
Vertex AI Claude 料金の全体像 — Anthropic 直 API と同じ単価体系
Anthropic は Google Cloud の戦略的パートナーとして Vertex AI Model Garden に Claude モデルを提供しており、モデルあたりのトークン単価は Anthropic 直 API と同額に設定されています。差が出るのは課金窓口と、一部オプションの可否です。
Vertex AI 経由で使う場合、請求は GCP 請求アカウントへ一本化されます。Anthropic Console でのクレジット購入は不要で、Google Cloud の既存の請求管理・予算アラート・コスト配分タグをそのまま流用できます。IAM による細粒度アクセス制御、VPC Service Controls によるネットワーク境界、Cloud Logging での監査ログ記録が GCP ネイティブで整うため、コンプライアンス要件の厳しいエンタープライズ導入でも使いやすい構成です。
一方で、最新モデルの提供タイミングは Anthropic 直 API のほうが先行するケースが多く、Vertex AI でのリリースには数週間〜数ヶ月の遅延が生じることがあります。開発速度を最優先するプロジェクトでは、この点を考慮してください。
全モデル料金一覧(2026 年 6 月現在)
以下は Vertex AI で利用可能な Claude モデルの基本料金です(1M トークンあたり、USD)。ソース: Anthropic 公式料金ページ
| モデル | 入力 | 出力 | ステータス |
|---|---|---|---|
| Claude Opus 4.8 | $5.00 | $25.00 | 最新 Opus |
| Claude Opus 4.7 | $5.00 | $25.00 | 前世代 Opus |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 標準推奨モデル |
| Claude Sonnet 4.5 | $3.00 | $15.00 | 前世代 Sonnet |
| Claude Haiku 4.5 | $1.00 | $5.00 | 高速・低コスト |
| Claude Haiku 3.5 | $0.80 | $4.00 | 旧世代・Vertex AI で継続提供 |
注目点として、Haiku 3.5 は Anthropic 直 API では廃止済みですが、Vertex AI では引き続き利用可能です。既存のバッチ処理パイプラインで Haiku 3.5 を使い続けたい場合、Vertex AI 経由が現実的な継続手段になります。
Opus ファミリーは 4.5〜4.8 まで単価が一律 $5/$25 と統一されており、世代を問わず Opus を使う場合に追加のコスト増はありません。
地域エンドポイントを使うと料金が 10% 上がる理由
Vertex AI の Claude エンドポイントには グローバル・エンドポイント と 地域エンドポイント(リージョナル/マルチリージョン)の 2 種類があります。Anthropic 公式ドキュメントによると、地域エンドポイントにはグローバル比で 10% のプレミアムが上乗せされます。
たとえば Sonnet 4.6 のグローバル入力単価が $3.00 の場合、us-east5 や europe-west1 などの地域エンドポイントでは入力単価が $3.30 になります。
地域エンドポイントを選ぶ主なケースは以下の通りです。
- GDPR や医療情報保護法など、データを特定リージョン内に留める規制要件がある
- レイテンシを特定リージョンに近い場所で最小化したい
- 特定リージョンへのトラフィックルーティングが社内ポリシーで義務付けられている
コスト最適化が目的なら、規制要件がない限りグローバル・エンドポイントを使用するのが基本方針です。
2026 年 6 月時点で利用可能な Claude 対応リージョンは us-east5・europe-west1・asia-southeast1 などですが、東京リージョン(asia-northeast1)では Claude は未提供です。日本国内の低レイテンシを重視する場合、AWS Bedrock の ap-northeast-1(東京)か Anthropic 直 API を選ぶほうが地理的優位性があります。
Batch API で最大 50% 削減
即時応答が不要な処理には Batch API を活用すると、通常料金の半額でリクエストを処理できます。ドキュメントの一括変換・評価セットの自動スコアリング・バックグラウンドでのデータ加工などが代表的な用途です。
| モデル | Batch 入力 | Batch 出力 |
|---|---|---|
| Claude Opus 4.8 / 4.7 | $2.50 / MTok | $12.50 / MTok |
| Claude Sonnet 4.6 / 4.5 | $1.50 / MTok | $7.50 / MTok |
| Claude Haiku 4.5 | $0.50 / MTok | $2.50 / MTok |
Batch API はリクエストを非同期で処理し、完了まで数分〜数時間かかります。その代わり、同じモデルをリアルタイムで呼び出すよりも半額で実行できます。月次のまとめ処理や夜間レポート生成など、SLA に余裕があるワークロードは積極的に Batch API に切り出すと費用対効果が大きくなります。
Prompt Caching の料金と仕組み
同一のシステムプロンプトや長文の参照資料を繰り返し使うワークロードでは、Prompt Caching によって入力コストを大幅に圧縮できます。キャッシュ書き込み時には通常より高い料金がかかりますが、同じキャッシュに何度もヒットすれば総コストが下がります。
| 操作 | 料金倍率 | キャッシュ保持時間 |
|---|---|---|
| キャッシュ書き込み(5 分保持) | 基本入力 × 1.25 | 5 分 |
| キャッシュ書き込み(1 時間保持) | 基本入力 × 2.0 | 1 時間 |
| キャッシュ読み取り(ヒット) | 基本入力 × 0.1 | 書き込みと同じ |
具体例として Sonnet 4.6(入力 $3.00 / MTok)の場合、5 分保持のキャッシュ書き込みは $3.75 / MTok、キャッシュヒット読み取りは $0.30 / MTok になります。書き込みコストの回収には同一キャッシュへの 4〜5 回ヒットが目安です。
チャットアプリで長いシステムプロンプトを毎ターン送信しているケースや、RAG パイプラインで同一ドキュメントを何十回も埋め込むケースでは、Prompt Caching の効果が特に大きくなります。
AWS Bedrock との料金比較表
Claude を提供するクラウドプラットフォームとして Vertex AI と並ぶ AWS Bedrock との主要な差異を整理します。
| 比較軸 | Vertex AI | AWS Bedrock |
|---|---|---|
| 基本単価 | 直 API と同額 | 直 API と同額 |
| 地域プレミアム | グローバル比 +10% | リージョン差あり |
| Batch 割引 | 50% | 50% |
| Prompt Caching | 利用可 | 利用可 |
| 請求統合 | GCP 請求アカウント | AWS 請求アカウント |
| Haiku 3.5 継続提供 | あり | あり |
| 東京リージョン | 未提供(2026/6 時点) | ap-northeast-1 で提供 |
| IAM 統合 | Google Cloud IAM | AWS IAM |
東京リージョン対応という点では Bedrock が先行しています。一方、インフラの大半が GCP で稼働しているプロジェクトでは、Vertex AI に統一することで IAM・監査ログ・コスト管理を一元化できるメリットがあります。ベンダーを変えるコストも考慮した上で選択してください。
GCP 上での課金管理と予算アラートの設定
Vertex AI Claude の使用コストは Cloud Billing ダッシュボードで他の GCP サービスと並んで確認できます。コスト超過を防ぐためには予算アラートの事前設定が重要です。
- Google Cloud Console → [お支払い] → [予算とアラート] を開く
- [予算を作成] をクリックし、スコープで「Vertex AI」サービスを指定
- 月次上限額を入力し、50% / 90% / 100% 到達時のメール通知先を設定する
- [保存] してアラートを有効化する
プロジェクト別・チーム別にラベルを付けると、どのサービスや部署が Claude コストを消費しているかを細かく可視化できます。また、BigQuery への課金データエクスポートを有効にすると、期間比較やモデル別コスト集計を SQL で自在に分析できます。
Claude の呼び出し量が多い場合、Google Cloud の 確約利用割引(CUD) や Committed Use Contracts が適用されないかどうかも Google Cloud セールスに確認する価値があります。
コスト最適化の 4 実践則
-
モデル階層の明確な使い分け — 要約・分類・翻訳など比較的単純なタスクには Haiku 4.5($1/$5)を割り当て、複雑な推論や長文生成にのみ Opus($5/$25)を使う設計にします。Sonnet($3/$15)を中間のデフォルトとし、ユースケースごとにモデルを選択するだけで総コストを大幅に圧縮できます。
-
Batch API への積極的な切り出し — リアルタイム応答が不要なワークロードを洗い出し、夜間または週次のバッチジョブとして Batch API で実行します。50% 割引は同モデルで最も効果の高いコスト削減策です。
-
Prompt Caching の適切な活用 — 同一の長いシステムプロンプトや参照ドキュメントを繰り返し使うアプリでは Prompt Caching を有効にします。1 時間保持のキャッシュを使い、会話ターンをまたいでキャッシュヒット率を最大化する設計が効果的です。
-
地域エンドポイントの利用はデータレジデンシー必須時のみ — 規制要件がない場合はグローバル・エンドポイントを使い、10% のプレミアムを回避します。グローバル・エンドポイントでも SLA や信頼性に差はなく、コストだけが異なります。
最新の料金情報は Anthropic 公式料金ページ および Google Cloud Vertex AI 料金ページ でご確認ください。料金は改定される場合があります。