
Claude Opus 4.1 とは — SWE-bench 74.5% の強化版 Opus、変更点・料金・使い方
Anthropic は 2025 年 8 月 5 日、Claude Opus 4 の改良版である Claude Opus 4.1 を公開した。マイナーバージョンの位置づけながら、SWE-bench Verified で 74.5% を記録し、特に複数ファイルにまたがるコードリファクタリングと長時間の調査タスクで Opus 4 を明確に上回る。本記事では、Opus 4.1 で何が変わったのか、ベンチマーク数値の読み方、料金・利用方法、そして後継の Opus 4.7 が登場した 2026 年時点でどう選ぶべきかを整理する。
出典: Anthropic 公式リリース「Claude Opus 4.1」
目次 (11)
Claude Opus 4.1 とは — 「中継ぎ」ではない実用強化版
Claude Opus 4.1 は、Anthropic の最上位モデル系列「Opus」の 4.x 系第二弾として 2025 年 8 月 5 日に公開された。バージョン番号は小数点以下 1 つ繰り上がっただけだが、実装面では Opus 4 のアーキテクチャを共有しつつ、ポストトレーニング段階での強化を重ねた「実用品質を一段引き上げた版」と位置づけられている。
Anthropic 自身が強調しているのは、次の 3 領域での改善である。第一に、自律的なタスク遂行能力(いわゆるエージェント的ワークフロー)。第二に、実コードベースでの編集精度。第三に、長文ドキュメントを跨いで証拠を辿り、結論を導く「詳細追跡」と検索の質。マイナーバージョンとは思えないほど、現場で効くポイントに絞った調整が入っている。
API でのモデル識別子は claude-opus-4-1-20250805。日付サフィックスからわかるとおり、Anthropic のモデル命名規則に則ったスナップショットとして固定されている。本番運用では、この識別子を直接指定することで挙動を再現可能な形でピン留めできる。
Opus 4 から何が変わったか — 改善ポイント 3 つ
1. マルチファイルリファクタリングの精度向上
最も大きな変化は、複数ファイルにまたがるコード変更タスクである。たとえば「あるインターフェースを別シグネチャに置き換え、利用箇所すべてを更新する」「型定義を新スキーマに合わせて 30 ファイル分書き直す」といった作業で、Opus 4.1 は依存関係の取りこぼしや破壊的変更の見落としが目に見えて減った。Anthropic は「特に大きな性能向上を記録した」と表現している。
2. エージェント検索と詳細追跡
長文資料を読み込ませて根拠付きで回答させる、いわゆる Retrieval-Augmented Generation や、複数ステップにわたるエージェント的調査タスクで挙動が安定する。文書の何ページ目に書かれていたか、引用元の URL は何か、といった「ソースに戻る」能力が改善されており、リサーチ自動化や法務・財務の確認業務でメリットが出やすい。
3. 一般的な推論と指示遵守の底上げ
ベンチマーク数値以外の体感差として、複雑な指示の取りこぼしが減り、長い対話の途中で前提が崩れにくくなった。料金と速度は Opus 4 と同水準を維持しつつ品質だけ底上げされているため、API ユーザーは識別子を切り替えるだけで恩恵を受けられる。
ベンチマーク性能 — SWE-bench 74.5% の意味
公開時点での代表的なスコアは以下のとおり。
| ベンチマーク | Claude Opus 4.1 |
|---|---|
| SWE-bench Verified | 74.5% |
| Terminal-Bench | 先行モデル上回る |
SWE-bench Verified は GitHub 上の実 OSS から抽出された Issue を解かせる、業界標準に近いコーディング評価である。Verified 版はテストが厳密に通る問題のみに絞ったサブセットで、74.5% という数字は、出題された Issue の約 4 分の 3 で「テストが通る修正パッチ」を生成できたことを意味する。Opus 4 の同指標は 72% 台だったため、約 2 ポイントの上積みである。
派手な伸びには見えないが、SWE-bench は問題の上位が極端に難しく、上位帯での 1〜2 ポイントは「これまで取りこぼしていた難問の一部が解けるようになった」ことを示す。実務での感覚としては、PR レビューで指摘していた漏れの一部が初稿で消える、というレベルの改善である。
Terminal-Bench は CLI 操作タスクのベンチマーク。シェル上でコマンドを連鎖させて目的を達成する能力を測るもので、エージェント運用が増えた 2025 年以降に注目を集めている指標である。
Opus 4.7 との位置づけ — 2026 年に Opus 4.1 を選ぶ理由
2026 年 5 月時点では、Opus 系列の最新版は Claude Opus 4.7(1M トークンコンテキスト対応)であり、ベンチマーク・コンテキスト長ともに 4.1 を上回る。にもかかわらず Opus 4.1 を選ぶ理由としては、以下のケースが現実的に存在する。
- 既存パイプラインのピン留め: モデルスナップショットを
claude-opus-4-1-20250805で固定している本番系を、検証コストをかけずに維持したい場合。 - 再現性が必要な評価実験: 論文や社内検証で「同一モデルでの比較」を担保する必要があるケース。
- 料金体系の継続: Opus 4.1 は Opus 4 と同価格で提供されているため、移行コストなしで品質改善だけを取りに行きたいプロジェクト。
新規プロジェクトで最高性能を求める場合は素直に最新版を選んだほうがよいが、「既存システムの中で軽くアップグレードしたい」用途には Opus 4.1 は今でも合理的な選択肢である。
料金体系 — Opus 4 と同価格を維持
Anthropic は Opus 4.1 のリリースに合わせて価格表を更新せず、Opus 4 と同じ単価を据え置いた。これは API ユーザーにとって重要な意思決定要素で、識別子を差し替えるだけで品質が上がり、コストは増えない構図になっている。
Claude の有料プラン(Pro / Max)ユーザーは追加課金なしで Opus 4.1 を利用でき、Claude Code、Anthropic API、Amazon Bedrock、Google Cloud Vertex AI でも同様に提供される。マルチクラウドで横断的に運用している組織でも、各環境の Opus 4.1 識別子が揃ったタイミングで一斉に切り替えるオペレーションが取れる。
利用方法 — 4 つの主要プラットフォーム
Opus 4.1 を呼び出す主要経路は以下のとおり。
- Anthropic API:
claude-opus-4-1-20250805をモデル指定で利用。SDK は Python / TypeScript の公式実装が提供されている。 - Claude Code: ターミナル上の対話開発ツール。Opus 4.1 をエディタ補助としてフル機能で使える。
- Amazon Bedrock: AWS 上でフルマネージド利用。VPC 内完結や CloudTrail 監査ログを要件とする企業はこちら。
- Google Cloud Vertex AI: GCP 環境からの呼び出し。BigQuery や Vertex Pipelines との統合を取りたい場合に向く。
いずれの経路でも、エージェント的タスクを長時間走らせる用途では、リクエストごとのタイムアウト、リトライ、ツール呼び出しの並列度といった運用パラメータを設計しておきたい。
実務での向き先 — どんなタスクで効くか
Opus 4.1 が伸びている領域から逆算すると、投入してリターンの大きいタスクは以下に集中する。
- 既存コードベース全体に渡るリファクタリング、フレームワーク移行
- 長文契約書や仕様書を横断する条項抽出と差分比較
- 複数の外部 API を順序立てて呼ぶ自律調査(リサーチ自動化)
- IDE 補助では収まらない、複数ファイル同時編集を伴うバグ修正
逆に、単純な要約や 1 ターンの定型出力では、Sonnet / Haiku 系のほうがコストと速度の両面で合理的なケースが多い。「Opus に投げる必要があるか」を最初に判定するルーティングをパイプラインに組み込んでおくと、月次のコスト管理が一段楽になる。
まとめ — マイナー番号で侮れない実用強化
Claude Opus 4.1 は、見た目こそ「4 から 4.1 への小幅更新」だが、マルチファイル編集・長文追跡・エージェント運用という「Opus に頼みたい類のタスク」で効いてくる改善が積まれている。同価格で品質が上がる構図になっているため、Opus 4 をすでに本番で動かしている組織にとっては、ほぼノーリスクで取りに行けるアップデートだ。
最新版が必要な新規プロジェクトでは Opus 4.7 を選ぶのが筋だが、安定運用フェーズに入ったシステムにとって、Opus 4.1 は今も「実務で十分に強い」選択肢である。
出典: