Claude Haiku 4.5 の性能|速度とコスパをベンチで検証

Claude Haiku 4.5 の性能|速度とコスパをベンチで検証

Claude Haiku 4.5 は「最速・最安の小型モデル」という位置づけながら、SWE-bench Verified 73.3% という旧 Sonnet 4 とほぼ互角のコーディング性能を、3 分の 1 のコストと約 2 倍の速度で叩き出します。本記事では Anthropic 公式発表とベンチマークをもとに、Haiku 4.5 の性能を速度・コーディング・コンピュータ操作・料金の 4 軸で整理し、どんな用途で選ぶべきかを判断できる形にまとめました。

結論powered by Claude

Claude Haiku 4.5 のコーディング性能は SWE-bench Verified で 73.3% に達し、ひと世代前の中位機 Sonnet 4(72.7%)とほぼ同等です。最小サイズのモデルでありながら実務レベルのバグ修正をこなせる水準で、「小型=性能が低い」という従来の常識が当てはまらなくなっています。

速度面では Sonnet 4 比で 2 倍以上、Sonnet 4.5 と比べると 4〜5 倍 という体感「瞬時」のレスポンスが最大の武器です。さらに 料金は入力 $1・出力 $5(100 万トークンあたり、税別 USD) と Sonnet 4 のおよそ 3 分の 1 で、同等性能を 3 分の 1 のコストで回せる点がコストパフォーマンスの核になっています。

一方で コンテキスト窓は 200K トークンに制限 され、Opus・Sonnet の 1M には届きません。学習データのカットオフも 2025 年 7 月と他機種より古いため、超長文の一括処理や最新知識を要するタスクは上位モデルに任せ、Haiku は高速・大量処理の現場に充てる使い分けが基本になります。

目次 (8)

結論早見 — 性能は Sonnet 4 並み・速度 2 倍・コスト 1/3

Claude Haiku 4.5 は 2025 年 10 月 15 日に公開された、Claude ファミリー最速・最安のモデルです。最大の特徴は「ひと世代前の中位機 Sonnet 4 と同等のコーディング性能を、約 2 倍の速度と 3 分の 1 のコストで提供する」点にあります。まずは要点を一覧で押さえてください。

観点 Claude Haiku 4.5 の性能
コーディング(SWE-bench Verified) 73.3%(Sonnet 4 の 72.7% とほぼ互角)
コンピュータ操作(OSWorld) 50.7%(Sonnet 4 の 42.2% を上回る)
速度 Sonnet 4 比 2 倍以上 / Sonnet 4.5 比 4〜5 倍
料金 入力 $1 / 出力 $5(100 万トークン、税別 USD)
コスト比 Sonnet 4 のおよそ 3 分の 1
コンテキスト窓 200K トークン

出典: Anthropic「Introducing Claude Haiku 4.5」(参照: 2026-05-30)

SWE-bench Verified 73.3% — コーディング性能は Sonnet 4 とほぼ互角

Claude Haiku 4.5 のコーディング性能は、業界標準ベンチマーク SWE-bench Verified で 73.3%(50 トライアル平均、128K 思考予算)を記録しました。SWE-bench Verified は GitHub 上の実際のバグ修正タスクを自動評価する指標で、AI が現実のコードベースをどれだけ正しく直せるかを測ります。

このスコアは、わずか数か月前まで上位機だった Claude Sonnet 4 の 72.7% を上回る水準です。つまり Haiku 4.5 は「最小サイズのモデル」でありながら、ひと世代前のフラッグシップ級コーディング性能を継承していることになります。Anthropic 自身も「Sonnet 4 と同等のコーディング性能を 3 分の 1 のコストで提供する」と説明しており、小型モデルの実用域が一段引き上がったといえます。

出典: Anthropic「Introducing Claude Haiku 4.5」

速度は Sonnet 4 比 2 倍・Sonnet 4.5 比 4〜5 倍 — 体感「瞬時」

性能の数字以上に Haiku 4.5 の存在感を際立たせるのが速度です。Anthropic は Sonnet 4.5 比で 2 倍以上高速 と公表しており、日本国内のレビューでも前世代の Sonnet 4 と比べて約 2 倍、Sonnet 4.5 と比べると 4〜5 倍 のレスポンスという報告が出ています。

この速さは、応答時間がユーザー体験を直接左右する用途で効いてきます。具体的には次のような場面です。

  1. チャットボットやカスタマーサポートのリアルタイム応答
  2. IDE 上でのコード補完・インライン提案
  3. 大量のドキュメント分類・要約のバッチ処理
  4. エージェントが多数のステップを連続実行する自動化

実際に GitHub Copilot 統合では「Sonnet 4 と同等品質でより高速」と評価されており、低遅延が求められる現場ほど Haiku の優位が出ます。

出典: Anthropic「Introducing Claude Haiku 4.5」

OSWorld 50.7% — コンピュータ操作・エージェント性能

コーディング以外でも Haiku 4.5 は健闘しています。デスクトップ操作の自動化を測る OSWorld ベンチマークでは 50.7% を記録し、Sonnet 4 の 42.2% を明確に上回りました。OSWorld は画面を見てマウス・キーボードを操作し実タスクを完了させる「コンピュータ操作(Computer Use)」の能力を評価する指標です。

この結果は、Haiku が単なる軽量テキスト生成モデルではなく、ツールを使って一連の作業を自律的に進めるエージェント用途にも耐えることを示しています。速度の速さと合わせると、多段ステップのワークフローを短時間で回す処理基盤として現実的な選択肢になります。

出典: Anthropic「Introducing Claude Haiku 4.5」

料金は入力 $1・出力 $5 — コストパフォーマンスの中身

Claude Haiku 4.5 の API 料金は 入力 $1・出力 $5(100 万トークンあたり、税別 USD) です。これは Sonnet 4.6(入力 $3・出力 $15)の約 3 分の 1、Opus 4.7(入力 $5・出力 $25)の 5 分の 1 にあたります。

モデル 入力(/MTok) 出力(/MTok)
Claude Opus 4.7 $5 $25
Claude Sonnet 4.6 $3 $15
Claude Haiku 4.5 $1 $5

「Sonnet 4 並みの性能を 3 分の 1 のコストで」という構図がそのまま価格に表れています。さらに Batch API や prompt caching の割引を併用すれば実効単価はさらに下がるため、大量リクエストを継続的にさばくサービスでは月額コストを現実的な水準まで抑えられます。料金の全体像はClaude の料金体系を整理した記事も参照してください。

出典: Anthropic Pricing / Anthropic Models overview(参照: 2026-05-30)

スペック一覧 — コンテキスト窓・出力・思考機能

性能を正しく見積もるには、ベンチマーク以外の仕様上の制約も押さえる必要があります。Haiku 4.5 は速度とコストに振り切ったぶん、コンテキスト窓と知識の鮮度で上位機に譲る部分があります。

項目 Claude Haiku 4.5
API ID claude-haiku-4-5-20251001
コンテキスト窓 200K トークン
最大出力 64K トークン
レイテンシ 最速(Fastest)
Extended Thinking あり
Adaptive Thinking なし
学習データカットオフ 2025 年 7 月

注意したいのは、コンテキスト窓が 200K トークン に制限されている点と、学習データのカットオフが 2025 年 7 月 と Opus・Sonnet(2026 年 1 月)より古い点です。100 万トークン級の長文を一括処理したい場合や、ごく最近の情報が前提になるタスクでは上位モデルを選ぶ判断が必要になります。

出典: Anthropic Models overview(参照: 2026-05-30)

Haiku 4.5 が向く用途・向かない用途

ここまでの性能を踏まえると、Haiku 4.5 は「速度とコストが効くタスク」に強く、「最大級の難度や超長文」では上位機に譲るという輪郭がはっきりします。

向いている用途は次のとおりです。

  1. リアルタイム応答が必要なチャット・サポート系アプリ
  2. コード補完や軽量なリファクタリングなど IDE 連携
  3. 大量ドキュメントの分類・要約・抽出のバッチ処理
  4. 多数のステップを高速で回すエージェント・自動化基盤

逆に避けたほうがよいのは次のようなケースです。

  1. 最高難度の設計判断や複雑な長時間推論(Opus 4.7 が適任)
  2. 200K を超える超長文の一括処理(1M 窓の Sonnet / Opus)
  3. 2025 年 8 月以降の最新知識を前提とするタスク

3 モデルの使い分け全体像はOpus・Sonnet・Haiku の違いをまとめた記事で判断チャート付きに整理しています。

まとめ — 性能は実用域、選ぶ基準は「速度とコスト」

Claude Haiku 4.5 は、SWE-bench Verified 73.3%・OSWorld 50.7% という数字が示すとおり、ひと世代前の中位機 Sonnet 4 に匹敵する性能を持ちながら、約 2 倍の速度と 3 分の 1 のコストで動く実用モデルです。最高難度の推論や超長文処理は依然として Opus・Sonnet の領域ですが、リアルタイム応答・大量バッチ・エージェント自動化のように「速さとコストが効く現場」では現行ラインアップで最もコストパフォーマンスの高い選択肢になります。まずは Haiku で試し、性能が足りない部分だけ上位機に切り替える運用が、コストを抑えつつ品質を確保する近道です。

出典: Anthropic「Introducing Claude Haiku 4.5」 / Anthropic Models overview(参照: 2026-05-30)

参考になったら ♡
Clauder Navi 編集部
@clauder_navi

Anthropic の Claude / Claude Code を中心に、日本のエンジニア向けに最新動向と実務 を毎日発信。 運営方針 は メディアについて をご覧ください。