
マルチエージェント設計|Anthropic 公開の 15 倍トークン手法
「マルチエージェント構成はコストが怖くて踏み出せない」と感じているエンジニアも多いのではないでしょうか。Anthropicが内部研究システムの設計詳解を公開し、トークン15倍・性能90%向上という判断の全体像を本記事でまとめました。
Anthropicが2026年6月12日に公開した内部研究システムは、リードエージェントが質問を分析し複数のサブエージェントを並列起動する構成です。各サブエージェントは独立した文脈で動作するため干渉がなく、単一エージェントでは処理しきれない長期タスクも並列分割で現実的に完遂できます。
トークン使用量が15倍になっても性能90%向上を選んだ背景には、「1回のタスクで人間の何時間分を代替できるか」という換算視点があります。長期リサーチや複数観点の分析では並列化コストを十分に回収できる一方、単純な質問応答に適用すると費用対効果が著しく低下する点も公式が明示しています。
本番稼働に向けた実装では、長期状態管理・エラー回復・可観測性の三要素が設計の鍵となります。サブエージェントが途中で失敗しても全体を止めない設計と、何が動いて何が失敗したかを人間が追えるログ設計を整えることが、実用システムと実験プロトタイプを分けるポイントです。
目次 (19)
- Anthropicが内部で使う「マルチエージェント研究システム」とは何か
- 単一エージェントとマルチエージェントの根本的な違い
- Claude Code v2.1.172 との接点
- リードエージェント + 並列サブエージェントという構成の核心
- 独立した文脈で動く利点
- エンジニアが再現できる最小構成のイメージ
- トークン15倍を払っても性能90%向上を選んだ設計判断の理由
- 「APIコスト」ではなく「時間置き換えコスト」で考える
- 並列化が「元が取れる」タスクの条件
- 割に合わないタスクを見極める
- 長期状態管理・エラー回復・可観測性の実務的な実装パターン
- 長期状態管理:タスクが途中で止まった時の設計
- エラー回復:1件の失敗で全体を止めない仕組み
- 可観測性:問題が起きたときに原因をすぐ特定できるか
- 小規模評価セットで早期検証する — 本番前に失敗を潰す方法
- 評価セットとは何か、何を入れるか
- 本番前に「このシステムは動く」を証明する最小検証ステップ
- Claude Code での評価ループのイメージ
- 出典
Anthropicが内部で使う「マルチエージェント研究システム」とは何か
Anthropicは2026年6月12日、エンジニアリングブログ「マルチエージェント研究システムの設計詳解」を公開した(出典: https://www.anthropic.com/engineering/multi-agent-research-system)。同社が内部で実際に稼働させているシステムの設計知見を体系的に公開した初の事例であり、エンジニアコミュニティに大きな反響を生んでいる。
このシステムが解決しようとした問いはシンプルだ。研究者が投げた複雑な質問に対して、単一エージェントでは実現できない精度で回答を自動生成することにある。たとえば「競合モデルの性能特性をすべての次元で比較し、論文と実験結果を照合した上でまとめてほしい」といった問いに対して、人間の研究者と同等水準の回答を自動で出すことを目標として設計された。
単一エージェントとマルチエージェントの根本的な違い
単一エージェントの限界は三点に集約される。まず、一つのコンテキストウィンドウに収まらない量の情報を扱うと、重要な文脈が失われる。次に、複数の観点から同時に調査を進める「並列処理」ができないため、順番に一つずつ調べていくしかない。さらに、タスクが長時間に及ぶほど途中エラーからの回復が難しくなり、最初からやり直すコストが膨らむ。
マルチエージェントはこの三つの壁を構造的に乗り越える。情報量の問題は文脈を分割して各エージェントが担当することで解決する。並列化の問題は複数エージェントの同時起動で解決する。そして長期タスクの信頼性問題は、各エージェントの責任範囲を絞ることで個々の失敗が全体に波及しない構造を作ることで解決する。
Claude Code v2.1.172 との接点
ブログ公開の2日前となる2026年6月10日には、Claude Code v2.1.172 でサブエージェントの5階層化が実装された(出典: https://github.com/anthropics/claude-code/releases/tag/v2.1.172)。Anthropicが内部で使う設計パターンが、Claude Code として開発者に開放されていくという文脈で読むと、今回のブログ公開の意味がより鮮明になる。ツールの使い方だけでなく、「なぜそう設計するのか」という思考の枠組みまでが共有されたことが、今回の公開の大きな意義だ。
リードエージェント + 並列サブエージェントという構成の核心
Anthropicのシステムで採用されているアーキテクチャは「リードエージェント + 並列サブエージェント」という二層構造だ。この構成が具体的にどう動くかを順に追うと、次のような流れになる。
- 入力された研究質問をリードエージェントが受け取り、「何を・どの角度から・どの順序で調べるべきか」を分析する
- 分析結果に基づき、複数のサブエージェントを並列で起動する(各エージェントはそれぞれ独立したタスクを担当する)
- 各サブエージェントは互いに干渉せず、独自の文脈で調査・生成を実行する
- 全サブエージェントの結果がリードエージェントに集約され、最終的な回答として統合される
この流れのポイントは「分析」と「実行」と「統合」の三段階が明確に分離されている点だ。それぞれの層が独立して機能するため、実行層(サブエージェント)の一部が失敗しても分析層や統合層は影響を受けない。
独立した文脈で動く利点
各サブエージェントが独立した文脈を持つことの最大のメリットは、互いに干渉しないという点だ。一つのエージェントが長い調査結果を生成しても、それが別のエージェントの文脈を圧迫することがない。各エージェントは自分の担当範囲のみを意識して動けるため、タスクが長期化しても出力の品質が安定しやすい。
また、一部のサブエージェントが失敗しても他のエージェントは影響を受けずに動き続ける。この「部分的な失敗への耐性」は、長期タスクを本番環境で運用する上で不可欠な特性だ。並列構成を取ることで「1件の失敗が全体を止める」という単一エージェントの弱点を根本から取り除ける。
エンジニアが再現できる最小構成のイメージ
自分のプロジェクトで同じ設計パターンを試す場合、次の三層に分けて考えると整理しやすい。
- タスク分析層(リードエージェント相当): 入力を受け取り、サブタスクに分解する役割を持つエージェント。「何を並列で処理すべきか」を判断する司令塔として機能する
- 実行層(サブエージェント相当): 各サブタスクを独立して実行する複数のエージェント。互いの結果を知らずに動くことで干渉が起きない
- 統合層(リードエージェントの後段): 各実行結果を受け取り、最終出力としてまとめる役割。一部のサブタスクが失敗した場合の扱いもここで決定する
Claude Code v2.1.172 以降では、この三層構造を実際に構築できるサブエージェントの階層化機能が整っている。以前は理論でしかなかったマルチエージェント構成が、開発者がすぐに試せる形になってきた段階にある。
トークン15倍を払っても性能90%向上を選んだ設計判断の理由
Anthropicのシステムはトークン使用量が単一エージェントに比べて15倍に増加する一方で、研究タスクの性能は90%向上したと公式ブログで明示されている(出典: https://www.anthropic.com/engineering/multi-agent-research-system)。なぜこの「割高な選択」が合理的になるのかを理解するには、コスト計算の枠組みを変える必要がある。
「APIコスト」ではなく「時間置き換えコスト」で考える
従来の単純なコスト計算では「APIコスト × トークン数」で判断しがちだ。しかし複雑なリサーチタスクに対してマルチエージェントを使う場合、正しい比較軸は次のようになる。
- マルチエージェントの実行コスト vs そのタスクを人間がやった場合の人件費・時間コスト
- マルチエージェントのアウトプット品質 vs 単一エージェントのアウトプット品質の差
たとえば「競合他社10社の最新動向を全方位で比較した調査レポート」を単一エージェントに依頼すると品質が低下しやすい。一方でリード + 並列サブエージェント構成なら、研究者が1〜2日かかる仕事を数時間以内に同等水準で処理できるとしたら、15倍のトークンコストは十分に回収できる計算になる。問うべきは「トークン何倍か」ではなく「人間の何時間分を代替できるか」だ。
並列化が「元が取れる」タスクの条件
Anthropicが公開した知見を踏まえると、マルチエージェントが費用対効果を発揮するタスクは次の傾向がある。
- 長期かつ複数ステップにわたるタスク: 単一の問いへの回答だけでなく、複数の調査を統合して初めて意味をなすタスク。一度の実行で人間の数時間〜数日分の作業を代替できる水準のもの
- 複数の観点からの検証が必要なタスク: 一つの回答を複数のエージェントが異なる角度から検証する設計が威力を発揮する。相互検証によって単一エージェントでは発生しがちな見落としを減らせる
- 大量のデータを並列処理するタスク: 100件のドキュメントを10エージェントで並列に読み込み分類するようなシナリオ。順番に処理するより大幅に速く完了する
割に合わないタスクを見極める
反対に、次のようなタスクにマルチエージェント構成を使うと費用対効果が悪くなる。単純な質問応答、コンテキスト量が少なく1エージェントで十分に処理できる要約、リアルタイム性が求められて並列起動のオーバーヘッドが許容できないケースだ。
Anthropicはこの点を明確にしており、「どんなタスクでもマルチエージェントにすれば良い」という考え方を否定している。設計の出発点は「このタスクは本当に並列化が必要か?」という問いから始める必要がある。コストを正当化できるだけの複雑さと規模がタスクにあるかどうかを先に判断することが、無駄な費用増加を防ぐ第一歩だ。
長期状態管理・エラー回復・可観測性の実務的な実装パターン
研究システムが単なるプロトタイプを超えて本番稼働できるようになるには、三つの設計課題を乗り越える必要がある。Anthropicはブログで「本番環境での最大の課題はエラー回復と可観測性だった」と明示している。
長期状態管理:タスクが途中で止まった時の設計
複数のサブエージェントが長時間並列で動くシステムでは、「どのエージェントがどこまで終わったか」という状態を常に把握する仕組みが不可欠だ。単純に全エージェントの完了を待つだけでなく、次の三つの選択肢を事前に設計しておく必要がある。
- 部分成功で進める: 一部のサブエージェントが失敗しても成功分の結果を使って統合処理を継続する戦略。致命的でない失敗に向いている
- リトライする: 失敗したサブエージェントのみを再起動し、成功済みのものは再実行しない戦略。冪等性が担保できるタスクに向いている
- スキップする: 失敗したサブタスクの重要度が低い場合、その部分を省いて最終出力を生成する戦略。補助的な情報収集タスクに向いている
どの戦略を選ぶかはタスクの性質によって変わるが、「どのエージェントが今どの状態にあるか」を常に把握できる状態管理の仕組みがなければ、いずれの戦略も実行できない。状態管理は後付けで対応できるものではなく、設計初期に組み込む必要がある。
エラー回復:1件の失敗で全体を止めない仕組み
単一エージェント構成では「エージェントが失敗したら最初からやり直し」になりやすい。マルチエージェントでは「10件中1件が失敗しても残り9件の結果は使える」という設計が基本になる。
このためには各サブエージェントの実行を互いに独立させ、一方の失敗が他方に波及しない構造を徹底する。具体的には、共有状態への直接書き込みを避け、各エージェントの結果を独立したオブジェクトとして扱う設計が推奨される。あるエージェントが内部状態を壊しても、他のエージェントが保持するデータには影響しない構造だ。
可観測性:問題が起きたときに原因をすぐ特定できるか
本番環境で最も重要なのは、「このシステムは今何をしていて、どのエージェントが失敗しているか」を人間がリアルタイムで把握できることだ。可観測性のない長期タスクは問題が起きても原因の特定に時間がかかりすぎる。
最低限整えておきたいログ設計の要素は次の四点だ。
- サブエージェントの起動・完了・失敗のタイムスタンプ
- 各エージェントへの入力と出力のサマリ(全文ではなく要約で十分)
- リトライ回数とエラーの内容(エラー種別ごとに分類できると望ましい)
- 最終統合処理への入力数(全体中何件が正常完了したか)
これらが揃うことで、トラブル発生時の原因特定が格段に速くなる。特定の種類の入力でサブエージェントが高確率で失敗するといったパターンも、ログの集計から見えてくる。
小規模評価セットで早期検証する — 本番前に失敗を潰す方法
マルチエージェントシステムの開発で陥りがちな罠は「大規模に作ってから動かして問題を直す」というアプローチだ。Anthropicが公開した設計知見の中で特に実務的に価値が高いのが、「小規模評価セットによる早期検証」という方法論だ。
評価セットとは何か、何を入れるか
評価セットとは、本番で入力される可能性が高いタスクのサンプル集と、そのタスクに対する「期待される出力の基準」をセットにしたものだ。システムが正しく動くかどうかを本番前に繰り返し検証するための素材として機能する。
良い評価セットには次の三要素が含まれる。まず、典型的なユースケースをカバーする代表的なタスクのサンプル(5〜20件が目安)。次に、入力が極端に長い・複数言語が混在する・データが不完全といった例外的なエッジケース。そして、何が返ってくれば「成功」とみなすかの判定基準。これは完全一致を求めるのではなく、品質のチェックポイントとして設計する方が実用的だ。
本番前に「このシステムは動く」を証明する最小検証ステップ
評価セットを使った早期検証を本番前に実施する流れは次のようになる。
- 評価セットの5〜10件を使ってシステムを実行し、出力を確認する
- 出力品質の問題点(情報が抜けている・誤りがある・期待と構造が違う)をリストアップする
- 問題の根本原因を特定する(リードエージェントの分析精度か、特定サブエージェントの問題か、統合層の問題か)
- 修正後に同じ評価セットを再実行し、問題が解消されたことを確認する
- エッジケースのサンプルでも問題が起きないことを確認したら本番投入を判断する
この検証サイクルを小規模で回すことで、本番でユーザーが遭遇する問題を先回りして潰せる。Anthropicの知見では、本番前に10件程度の評価セットで検証することで、実際の本番トラブルの大半をカバーできたと述べている(出典: https://www.anthropic.com/engineering/multi-agent-research-system)。
Claude Code での評価ループのイメージ
Claude Code v2.1.172 以降では、サブエージェントの5階層化が実装されている(出典: https://github.com/anthropics/claude-code/releases/tag/v2.1.172)。この機能を使って評価ループを組む場合、リードエージェントに「評価セットの各タスクを並列で実行し、出力を判定基準と照合せよ」という役割を持たせることで、複数タスクの同時評価が可能になる。
また2026年6月11日にリリースされたClaude Code v2.1.173 では、サブエージェントの安定性改善が加えられており(出典: https://github.com/anthropics/claude-code/releases/tag/v2.1.173)、長期タスクにおけるエラー回復の信頼性が向上している。評価ループをこのバージョン以降で構築することで、より安定した検証環境が得られる。Anthropicが内部で使う設計パターンとツールが揃いつつある今は、マルチエージェントに踏み出す最もコストが低いタイミングの一つだ。
出典
- Anthropic Engineering Blog「マルチエージェント研究システムの設計詳解」(2026-06-12): https://www.anthropic.com/engineering/multi-agent-research-system
- Claude Code v2.1.172 リリースノート (2026-06-10): https://github.com/anthropics/claude-code/releases/tag/v2.1.172
- Claude Code v2.1.173 リリースノート (2026-06-11): https://github.com/anthropics/claude-code/releases/tag/v2.1.173