
Ollama で Claude Code を Windows で動かす|API キー不要
「Claude Code は便利だが、API の従量課金を気にせず手元の PC で動かせないか」——Windows ユーザーがこの疑問にたどり着く理由は、コスト・機密データ・オフライン利用などさまざまだ。結論から言えば、Ollama を経由すれば Claude Code を自前のローカルモデルで動かせる。鍵になったのは Ollama 側が Anthropic の API 形式に対応したことだ。この記事では、その仕組みと Windows での具体的なセットアップ手順、モデルの選び方、注意点を公式情報をもとに整理する。
「Windows で Claude Code を Ollama につないで、Anthropic の従量課金なしで使いたい」——その答えは Ollama v0.14.0 以降が Anthropic Messages API に対応したことで現実的になりました。Ollama をローカルの API サーバーとして立て、Claude Code の接続先(ANTHROPIC_BASE_URL)を http://localhost:11434 に向けるだけで、手元のオープンウェイトモデルがコーディングを担います。
ポイントは 3 つの環境変数(ANTHROPIC_AUTH_TOKEN=ollama など)を設定し、claude --model <モデル名> で起動すること。認証トークンはダミー文字列でよく、Anthropic の API キーは不要です。
ただし Claude Code は広いコンテキスト長を要求するため、公式は 最低 32K〜64K トークンのモデルを推奨します。動かしているのは Claude 本体ではなく qwen3-coder などのローカルモデルである点も押さえておきましょう。
目次 (11)
Ollama で Claude Code を動かす仕組み
Claude Code は本来 Anthropic のエンドポイントに接続し、Claude へリクエストを送るコマンドラインツールだ。一方で接続先 URL を環境変数で差し替えられる構造になっている。ここで効いてくるのが Ollama の対応で、Ollama 公式ブログによれば「Ollama v0.14.0 以降が Anthropic Messages API と互換になった」。
つまり Ollama を http://localhost:11434 で API サーバーとして動かし、Claude Code の送信先をそこへ向ければ、Claude Code は「Anthropic にリクエストを送っているつもり」で、実際にはローカルの Ollama が応答を返す。重要なのは、このとき動いているのは Claude そのものではなく、qwen3-coder や gpt-oss:20b といったオープンウェイトのローカルモデルだという点だ。Claude の重みは非公開でローカル実行できないため(関連:Claude はローカルで動かせるか)、Ollama 構成は「Claude Code という UI / エージェント機能を、別のモデルで動かす」ものと理解すると正確だ。
互換 API は messages・ストリーミング・システムプロンプト・ツール呼び出し・拡張思考・ビジョンに対応しており、Python / JavaScript の Anthropic SDK からも利用できる。
必要なもの — Windows のハードウェア要件
ローカルモデルを快適に動かすには相応のマシン性能が要る。Ollama 公式は性能面で WSL2 + GPU パススルーの有効化を推奨している。GPU がない場合は CPU でも動作するが、応答速度は大幅に落ち、メモリ(RAM)も多く必要になる。
加えて見落としがちなのがコンテキスト長だ。Ollama 公式ドキュメントは「Claude Code は広いコンテキストウィンドウを必要とする。最低 64K トークンを推奨」と明記している(ブログ側は 32K を下限として案内)。ローカルモデルはデフォルトでコンテキストが狭いことがあるため、手動でコンテキスト長を引き上げる調整が前提になる。クラウドモデルを使う場合は自動的にフル性能で動く。
Windows でのセットアップ手順
以下は環境変数を手動設定する標準的な流れだ。PowerShell を管理者で開いて進める。
Step 1: Ollama をインストールする
ollama.com から Windows 用インストーラー(.exe)をダウンロードして実行し、セットアップを完了する。インストール後は Ollama が常駐サービスとして起動し、http://localhost:11434 で待ち受ける。
Step 2: 使用するモデルを取得する
コーディング用途のローカルモデルを取得する。公式ブログが挙げる代表例は次のとおり。
ollama pull qwen3-coder
# または
ollama pull gpt-oss:20b
Step 3: Claude Code をインストールする
Windows の PowerShell では次のコマンドでインストールできる。
irm https://claude.ai/install.ps1 | iex
Step 4: 環境変数を設定する
Claude Code の接続先を Ollama に向ける。PowerShell では次の 3 つを設定する。
$env:ANTHROPIC_AUTH_TOKEN="ollama"
$env:ANTHROPIC_API_KEY=""
$env:ANTHROPIC_BASE_URL="http://localhost:11434"
ANTHROPIC_AUTH_TOKEN はダミー値「ollama」でよく、ANTHROPIC_API_KEY は空のままにする。Anthropic の本物の API キーは使わない。
Step 5: モデルを指定して起動する
取得したモデル名を指定して Claude Code を起動する。
claude --model qwen3-coder
環境変数を設定せず、その場で渡して起動することもできる。
$env:ANTHROPIC_AUTH_TOKEN="ollama"; $env:ANTHROPIC_BASE_URL="http://localhost:11434"; $env:ANTHROPIC_API_KEY=""; claude --model qwen3-coder
なお公式ドキュメントには ollama launch claude(モデル指定は ollama launch claude --model <モデル名>)という簡易起動コマンドも案内されている。環境変数の手動設定が面倒なら、まずこちらを試すとよい。
ローカルモデルとクラウドモデルの選び方
Ollama 経由では、手元で完結するローカルモデルと、Ollama のクラウド基盤で動くクラウドモデルの両方を選べる。
- ローカルモデル:
qwen3-coder、gpt-oss:20bなど。データを一切外に出さずオフラインで完結する反面、マシン性能に依存し、コンテキスト長の手動調整が要る。 - クラウドモデル:
glm-4.7:cloud、minimax-m2.1:cloudなど(末尾が:cloud)。手元の GPU が非力でも高速に動き、コンテキストも自動でフル性能になる。
機密性とオフライン性を最優先するならローカル、マシン性能が足りずとにかく快適に動かしたいならクラウド、という基準で選ぶとよい。なお他社モデルを Claude Code から使う発想は、プロキシ経由で GPT を Claude Code で使う方法とも共通する考え方だ。
注意点 — 機能制限とコンテキスト長
便利な反面、いくつか前提を理解しておきたい。
第一に、動いているのは Claude ではなく別のモデルなので、Claude 専用に最適化された挙動はそのまま再現されない。エージェント的なツール実行やコード品質は、選んだローカルモデルの実力に左右される。第二に、コンテキスト長が不足すると Claude Code は途中で文脈を見失いやすい。前述のとおり最低 32K〜64K を確保し、ローカルモデルでは設定で明示的に広げること。第三に、CPU のみの環境では実用速度が出にくい。常用するなら GPU か、:cloud モデルの併用を検討したい。
まとめ
Windows で Claude Code を Ollama につなぐ要点を整理する。
- Ollama v0.14.0 以降を入れ、
http://localhost:11434で待ち受けさせる。 qwen3-coderなどのモデルをollama pullで取得する。- Claude Code を入れ、
ANTHROPIC_AUTH_TOKEN=ollama/ 空のANTHROPIC_API_KEY/ANTHROPIC_BASE_URL=http://localhost:11434を設定する。 claude --model <モデル名>で起動する(またはollama launch claude)。
Anthropic の API キーなしで、手元のオープンウェイトモデルを Claude Code のワークフローに乗せられるのがこの構成の価値だ。コスト・機密性・オフラインという目的に応じて、ローカルとクラウドのモデルを使い分けてほしい。
出典