問題 ── AIコーディングのAPI費用がバカにならない
ふくろいAIラボ代表の丸尾です。うちではClaude Code(Anthropic公式CLI)を使って日常的にソフトウェア開発を行っている。チャットボットの開発、Webサイトの構築、Discord Botの開発 ── ほぼすべてのプロジェクトでClaude Opus 4がコードを書いている。
しかし、問題がある。APIコストが積み上がる。
Claude API の価格(2026年4月時点)
Claude Opus 4: 入力 $15 / 出力 $75(100万トークンあたり)
Claude Sonnet 4: 入力 $3 / 出力 $15(100万トークンあたり)
1日中コードを書かせると、Opusで1日$20〜50が飛ぶことも珍しくない。
もちろん品質は素晴らしい。だが、開発の大半は「既存パターンに沿ったコード生成」であり、毎回Opusクラスの知能が必要なわけではない。
「考える仕事」と「書く仕事」は分けられるのではないか?
発想 ── 「書く」と「考える」を分離する
人間の開発チームに例えると分かりやすい。
- シニアエンジニア(Claude)── 設計判断、コードレビュー、バグの原因特定、最終的な品質保証
- ジュニアエンジニア(ローカルLLM)── 指示に沿ったコード実装、定型的なパターンの記述
シニアが全部書く必要はない。ジュニアに書かせて、シニアがレビューすればいい。
| ユーザー | ➜ | Claude | ➜ | ローカルLLM | ➜ | Claude |
|---|---|---|---|---|---|---|
| 指示を出す | 設計・分解・指示 | コード執筆 | 検品・修正・納品 |
このワークフローなら、Claudeが消費するトークンは指示出しとレビューの分だけ。コード生成の大量トークンはローカルで処理される。APIコストが劇的に下がる。
アーキテクチャ ── Claude Code + Ollama + MCP
実現するために使う技術スタックはシンプルだ。
| レイヤー | 技術 | 役割 |
|---|---|---|
| 司令塔 | Claude Code(Opus 4) | ユーザーの指示を理解し、タスクを分解、ローカルLLMに指示を出し、結果をレビューして納品 |
| コード実行 | Ollama + OpenClaw | ローカルでLLMを動かす推論エンジン。OpenClawでエージェント的な操作も可能 |
| 橋渡し | MCP Server | Claude CodeからOllamaを「ツール」として呼び出すためのブリッジ |
| モデル | Qwen 3.5-35B-A3B | コーディング性能トップクラスのオープンLLM(VRAM 12GBで動作) |
MCP(Model Context Protocol)とは
Anthropicが策定したオープンプロトコルで、LLMに外部ツールを接続するための標準規格。Claude Codeはこのプロトコルに対応しており、MCPサーバーを登録するだけで、Claudeが任意の外部サービスを「ツール」として使えるようになる。
つまり、OllamaをMCPサーバーとして立てれば、Claudeが「ローカルLLMにコードを書かせる」ツールを手に入れることになる。
OpenClawとは
OpenClawは、ローカルLLMをClaude Codeライクなコーディングエージェントとして動かすためのオープンソースツール。Ollamaと組み合わせることで、ローカルモデルにファイルの読み書きやコマンド実行などのエージェント機能を持たせることができる。
モデル選定 ── 2026年4月のオープンLLM比較
ローカルで動かすモデルの選定は重要だ。2026年4月時点の主要オープンLLMを比較した。
| モデル | 総パラメータ | アクティブ | VRAM目安 | コーディング | ライセンス |
|---|---|---|---|---|---|
| Qwen 3.5-35B-A3B | 35B | 3B | ~8GB | 最高 | Apache 2.0 |
| Gemma 4 26B-A4B | 26B | 3.8B | ~9GB | 非常に高い | Apache 2.0 |
| Qwen 3.5-9B | 9B | 9B | ~10GB | 高い | Apache 2.0 |
| Mistral Small 4 | 119B | 6B | ~12GB | 高い | Apache 2.0 |
| DeepSeek R1蒸留14B | 14B | 14B | ~9GB | 中〜高 | MIT |
| Qwen 3.5-27B | 27B | 27B | ~16GB | VRAM不足 | Apache 2.0 |
選定結果: Qwen 3.5-35B-A3B
MoE(Mixture of Experts)アーキテクチャにより、総パラメータ35Bの知識量を持ちながら、推論時はわずか3Bしかアクティブにならない。
VRAM 12GBに余裕で収まり、コーディングベンチマークでは同サイズ帯トップ。9BモデルですらGPT-OSS-120Bを上回る結果を出しているQwenファミリーの強みがそのまま活きる。
次点: Gemma 4 26B-A4B(2026年4月2日リリースの最新モデル。パラメータ効率が非常に高い)
実行環境 ── 手持ちのPCで十分動く
今回の検証環境は以下の通り。ゲーミングPCや自作PCとして一般的なスペックだ。
| パーツ | スペック | ポイント |
|---|---|---|
| CPU | AMD Ryzen 9 9900X(12C/24T) | Ollamaの前処理に十分 |
| RAM | 64GB DDR5 | モデルのCPUオフロードにも対応可能 |
| GPU | NVIDIA RTX 3080 Ti(VRAM 12GB) | MoEモデル(3B〜4Bアクティブ)なら余裕 |
| OS | Windows 11 Pro | Ollama / OpenClaw 対応済み |
最低要件の目安
GPU: VRAM 8GB以上(RTX 3060 12GB / RTX 4060 8GBなど)
RAM: 32GB以上推奨(モデルの一部がCPUにオフロードされるため)
VRAM 8GBの場合はQwen 3.5-9BのQ4量子化(~6GB)を選ぶとよい。
セットアップ手順
Step 1: Ollamaのインストールとモデル取得
# Ollamaのインストール(未インストールの場合)
# https://ollama.com からダウンロード
# Ollama起動
ollama serve
# メインモデルの取得
ollama pull qwen3.5:35b-a3b-q4_K_M
# サブモデル(軽量・高速)
ollama pull qwen3.5:9b-q8_0
# 比較用にGemma 4も
ollama pull gemma4:26b-a4b-q4_K_M
Step 2: OpenClawのインストール
# OpenClawのインストール
npm install -g openclaw
# Ollamaバックエンドで起動
openclaw --provider ollama --model qwen3.5:35b-a3b-q4_K_M
OpenClawを使うことで、ローカルLLMにClaude Codeと同様のエージェント機能(ファイル読み書き、コマンド実行、コード生成)を持たせることができる。Claude Codeから直接指示を出す代わりに、OpenClawに作業を委任するワークフローも構築可能だ。
Step 3: MCP Serverの構築
Claude CodeからOllamaを「ツール」として呼ぶためのMCPサーバーを作る。
# Ollama MCP Server のセットアップ
npm install -g ollama-mcp-server
# Claude Codeの設定に追加
# ~/.claude/settings.json に以下を追記:
{
"mcpServers": {
"ollama": {
"command": "ollama-mcp-server",
"args": ["--model", "qwen3.5:35b-a3b-q4_K_M"]
}
}
}
Step 4: 実際のワークフロー
セットアップが完了すると、以下のような開発フローが実現する。
- ユーザーがClaude Codeに指示「このAPIエンドポイントにバリデーションを追加して」
- Claudeが設計── 既存コードを読み、バリデーションの方針を決定
- Claudeがローカルに委任── MCPツール経由で「この仕様でコードを書け」と指示
- ローカルLLMがコード生成── Qwen 3.5がコードを出力(APIコストゼロ)
- Claudeがレビュー── 出力されたコードの品質・セキュリティをチェック
- 問題があれば修正指示、なければファイルに書き込んで完了
コスト試算 ── どれだけ削減できるか
典型的な開発セッション(1日8時間)でのトークン消費を推定した。
| 項目 | 従来(全部Claude) | ハイブリッド方式 |
|---|---|---|
| コード生成トークン | ~300K出力 | 0(ローカル処理) |
| 設計・レビュートークン | ~100K入出力 | ~100K入出力 |
| コンテキスト読み込み | ~200K入力 | ~80K入力 |
| 1日あたりAPI費用 | $20〜50 | $3〜8 |
| 月間費用(20営業日) | $400〜1,000 | $60〜160 |
APIコスト削減率
80〜90%
コード生成の大量トークンをローカルに移すことで、Claudeの消費はレビューと設計判断のみに。月間$400〜1,000が$60〜160に圧縮される。
電気代は増えるが、RTX 3080 Tiの消費電力350Wで8時間稼働しても1日約80円。月間1,600円程度で、API削減額に比べれば誤差の範囲だ。
限界と注意点
この方式が向いているケース
- 既存パターンに沿ったCRUD実装
- HTMLテンプレートやCSS記述
- テストコードの量産
- 定型的なリファクタリング
- ドキュメント生成
Claudeに任せるべきケース
- 複雑なアーキテクチャ設計
- セキュリティに関わるコード
- 高度なデバッグ・原因特定
- 複数ファイルにまたがる大規模変更
- 未知のAPI・ライブラリの調査
品質保証はClaudeが担う
ローカルLLMの出力は必ずClaudeがレビューする。ローカルLLMは「速くてタダだが、たまに間違える賢いジュニア」だと思うのがちょうどいい。最終的な品質はClaudeが保証するので、ユーザーが品質低下を感じることはない。
まとめ
今回検証した「Claude + ローカルLLMのハイブリッド開発体制」をまとめる。
構成まとめ
司令塔: Claude Code(Opus 4)── 設計・レビュー・品質保証
実行部隊: Ollama + Qwen 3.5-35B-A3B ── コード生成(VRAM 12GBで動作)
エージェント: OpenClaw ── ローカルLLMにファイル操作・コマンド実行能力を付与
接続: MCP Server ── Claude CodeとOllamaをつなぐブリッジ
コスト削減: 月間APIコストを80〜90%削減($400〜1,000 → $60〜160)
オープンソースLLMの性能向上が著しい2026年、もはや「全部クラウドAPI」にこだわる理由は薄い。考える仕事はクラウド、書く仕事はローカル ── この分業モデルが、個人開発者や小規模チームのAI開発コストを現実的なラインに引き下げてくれる。
ふくろいAIラボでは、この体制を実際の開発プロジェクトに導入し、継続的に検証していく予定だ。結果はこのブログで随時報告する。
