Claude APIコストを90%削減── ローカルLLMをサブエージェントにする仕組み

問題 ── AIコーディングのAPI費用がバカにならない

ふくろいAIラボ代表の丸尾です。うちではClaude Code（Anthropic公式CLI）を使って日常的にソフトウェア開発を行っている。チャットボットの開発、Webサイトの構築、Discord Botの開発 ── ほぼすべてのプロジェクトでClaude Opus 4がコードを書いている。

しかし、問題がある。APIコストが積み上がる。

Claude API の価格（2026年4月時点）

Claude Opus 4: 入力 $15 / 出力 $75（100万トークンあたり）

Claude Sonnet 4: 入力 $3 / 出力 $15（100万トークンあたり）

1日中コードを書かせると、Opusで1日$20〜50が飛ぶことも珍しくない。

もちろん品質は素晴らしい。だが、開発の大半は「既存パターンに沿ったコード生成」であり、毎回Opusクラスの知能が必要なわけではない。

「考える仕事」と「書く仕事」は分けられるのではないか？

発想 ── 「書く」と「考える」を分離する

人間の開発チームに例えると分かりやすい。

シニアエンジニア（Claude）── 設計判断、コードレビュー、バグの原因特定、最終的な品質保証
ジュニアエンジニア（ローカルLLM）── 指示に沿ったコード実装、定型的なパターンの記述

シニアが全部書く必要はない。ジュニアに書かせて、シニアがレビューすればいい。

ユーザー	➜	Claude	➜	ローカルLLM	➜	Claude
指示を出す		設計・分解・指示		コード執筆		検品・修正・納品

このワークフローなら、Claudeが消費するトークンは指示出しとレビューの分だけ。コード生成の大量トークンはローカルで処理される。APIコストが劇的に下がる。

アーキテクチャ ── Claude Code + Ollama + MCP

実現するために使う技術スタックはシンプルだ。

レイヤー	技術	役割
司令塔	Claude Code（Opus 4）	ユーザーの指示を理解し、タスクを分解、ローカルLLMに指示を出し、結果をレビューして納品
コード実行	Ollama + OpenClaw	ローカルでLLMを動かす推論エンジン。OpenClawでエージェント的な操作も可能
橋渡し	MCP Server	Claude CodeからOllamaを「ツール」として呼び出すためのブリッジ
モデル	Qwen 3.5-35B-A3B	コーディング性能トップクラスのオープンLLM（VRAM 12GBで動作）

MCP（Model Context Protocol）とは

Anthropicが策定したオープンプロトコルで、LLMに外部ツールを接続するための標準規格。Claude Codeはこのプロトコルに対応しており、MCPサーバーを登録するだけで、Claudeが任意の外部サービスを「ツール」として使えるようになる。

つまり、OllamaをMCPサーバーとして立てれば、Claudeが「ローカルLLMにコードを書かせる」ツールを手に入れることになる。

OpenClawとは

OpenClawは、ローカルLLMをClaude Codeライクなコーディングエージェントとして動かすためのオープンソースツール。Ollamaと組み合わせることで、ローカルモデルにファイルの読み書きやコマンド実行などのエージェント機能を持たせることができる。

モデル選定 ── 2026年4月のオープンLLM比較

ローカルで動かすモデルの選定は重要だ。2026年4月時点の主要オープンLLMを比較した。

モデル	総パラメータ	アクティブ	VRAM目安	コーディング	ライセンス
Qwen 3.5-35B-A3B	35B	3B	~8GB	最高	Apache 2.0
Gemma 4 26B-A4B	26B	3.8B	~9GB	非常に高い	Apache 2.0
Qwen 3.5-9B	9B	9B	~10GB	高い	Apache 2.0
Mistral Small 4	119B	6B	~12GB	高い	Apache 2.0
DeepSeek R1蒸留14B	14B	14B	~9GB	中〜高	MIT
Qwen 3.5-27B	27B	27B	~16GB	VRAM不足	Apache 2.0

選定結果: Qwen 3.5-35B-A3B

MoE（Mixture of Experts）アーキテクチャにより、総パラメータ35Bの知識量を持ちながら、推論時はわずか3Bしかアクティブにならない。

VRAM 12GBに余裕で収まり、コーディングベンチマークでは同サイズ帯トップ。9BモデルですらGPT-OSS-120Bを上回る結果を出しているQwenファミリーの強みがそのまま活きる。

次点: Gemma 4 26B-A4B（2026年4月2日リリースの最新モデル。パラメータ効率が非常に高い）

実行環境 ── 手持ちのPCで十分動く

今回の検証環境は以下の通り。ゲーミングPCや自作PCとして一般的なスペックだ。

パーツ	スペック	ポイント
CPU	AMD Ryzen 9 9900X（12C/24T）	Ollamaの前処理に十分
RAM	64GB DDR5	モデルのCPUオフロードにも対応可能
GPU	NVIDIA RTX 3080 Ti（VRAM 12GB）	MoEモデル（3B〜4Bアクティブ）なら余裕
OS	Windows 11 Pro	Ollama / OpenClaw 対応済み

最低要件の目安

GPU: VRAM 8GB以上（RTX 3060 12GB / RTX 4060 8GBなど）

RAM: 32GB以上推奨（モデルの一部がCPUにオフロードされるため）

VRAM 8GBの場合はQwen 3.5-9BのQ4量子化（~6GB）を選ぶとよい。

セットアップ手順

Step 1: Ollamaのインストールとモデル取得

# Ollamaのインストール（未インストールの場合）
# https://ollama.com からダウンロード

# Ollama起動
ollama serve

# メインモデルの取得
ollama pull qwen3.5:35b-a3b-q4_K_M

# サブモデル（軽量・高速）
ollama pull qwen3.5:9b-q8_0

# 比較用にGemma 4も
ollama pull gemma4:26b-a4b-q4_K_M

Step 2: OpenClawのインストール

# OpenClawのインストール
npm install -g openclaw

# Ollamaバックエンドで起動
openclaw --provider ollama --model qwen3.5:35b-a3b-q4_K_M

OpenClawを使うことで、ローカルLLMにClaude Codeと同様のエージェント機能（ファイル読み書き、コマンド実行、コード生成）を持たせることができる。Claude Codeから直接指示を出す代わりに、OpenClawに作業を委任するワークフローも構築可能だ。

Step 3: MCP Serverの構築

Claude CodeからOllamaを「ツール」として呼ぶためのMCPサーバーを作る。

# Ollama MCP Server のセットアップ
npm install -g ollama-mcp-server

# Claude Codeの設定に追加
# ~/.claude/settings.json に以下を追記:
{
  "mcpServers": {
    "ollama": {
      "command": "ollama-mcp-server",
      "args": ["--model", "qwen3.5:35b-a3b-q4_K_M"]
    }
  }
}

Step 4: 実際のワークフロー

セットアップが完了すると、以下のような開発フローが実現する。

ユーザーがClaude Codeに指示「このAPIエンドポイントにバリデーションを追加して」
Claudeが設計── 既存コードを読み、バリデーションの方針を決定
Claudeがローカルに委任── MCPツール経由で「この仕様でコードを書け」と指示
ローカルLLMがコード生成── Qwen 3.5がコードを出力（APIコストゼロ）
Claudeがレビュー── 出力されたコードの品質・セキュリティをチェック
問題があれば修正指示、なければファイルに書き込んで完了

コスト試算 ── どれだけ削減できるか

典型的な開発セッション（1日8時間）でのトークン消費を推定した。

項目	従来（全部Claude）	ハイブリッド方式
コード生成トークン	~300K出力	0（ローカル処理）
設計・レビュートークン	~100K入出力	~100K入出力
コンテキスト読み込み	~200K入力	~80K入力
1日あたりAPI費用	$20〜50	$3〜8
月間費用（20営業日）	$400〜1,000	$60〜160

APIコスト削減率

80〜90%

コード生成の大量トークンをローカルに移すことで、Claudeの消費はレビューと設計判断のみに。月間$400〜1,000が$60〜160に圧縮される。

電気代は増えるが、RTX 3080 Tiの消費電力350Wで8時間稼働しても1日約80円。月間1,600円程度で、API削減額に比べれば誤差の範囲だ。

限界と注意点

この方式が向いているケース

既存パターンに沿ったCRUD実装
HTMLテンプレートやCSS記述
テストコードの量産
定型的なリファクタリング
ドキュメント生成

Claudeに任せるべきケース

複雑なアーキテクチャ設計
セキュリティに関わるコード
高度なデバッグ・原因特定
複数ファイルにまたがる大規模変更
未知のAPI・ライブラリの調査

品質保証はClaudeが担う

ローカルLLMの出力は必ずClaudeがレビューする。ローカルLLMは「速くてタダだが、たまに間違える賢いジュニア」だと思うのがちょうどいい。最終的な品質はClaudeが保証するので、ユーザーが品質低下を感じることはない。

まとめ

今回検証した「Claude + ローカルLLMのハイブリッド開発体制」をまとめる。

構成まとめ

司令塔: Claude Code（Opus 4）── 設計・レビュー・品質保証

実行部隊: Ollama + Qwen 3.5-35B-A3B ── コード生成（VRAM 12GBで動作）

エージェント: OpenClaw ── ローカルLLMにファイル操作・コマンド実行能力を付与

接続: MCP Server ── Claude CodeとOllamaをつなぐブリッジ

コスト削減: 月間APIコストを80〜90%削減（$400〜1,000 → $60〜160）

オープンソースLLMの性能向上が著しい2026年、もはや「全部クラウドAPI」にこだわる理由は薄い。考える仕事はクラウド、書く仕事はローカル ── この分業モデルが、個人開発者や小規模チームのAI開発コストを現実的なラインに引き下げてくれる。

ふくろいAIラボでは、この体制を実際の開発プロジェクトに導入し、継続的に検証していく予定だ。結果はこのブログで随時報告する。