問題 ── AIコーディングのAPI費用がバカにならない

ふくろいAIラボ代表の丸尾です。うちではClaude Code(Anthropic公式CLI)を使って日常的にソフトウェア開発を行っている。チャットボットの開発、Webサイトの構築、Discord Botの開発 ── ほぼすべてのプロジェクトでClaude Opus 4がコードを書いている。

しかし、問題がある。APIコストが積み上がる。

Claude API の価格(2026年4月時点)

Claude Opus 4: 入力 $15 / 出力 $75(100万トークンあたり)

Claude Sonnet 4: 入力 $3 / 出力 $15(100万トークンあたり)

1日中コードを書かせると、Opusで1日$20〜50が飛ぶことも珍しくない。

もちろん品質は素晴らしい。だが、開発の大半は「既存パターンに沿ったコード生成」であり、毎回Opusクラスの知能が必要なわけではない。

「考える仕事」と「書く仕事」は分けられるのではないか?

発想 ── 「書く」と「考える」を分離する

人間の開発チームに例えると分かりやすい。

シニアが全部書く必要はない。ジュニアに書かせて、シニアがレビューすればいい。

ユーザー Claude ローカルLLM Claude
指示を出す 設計・分解・指示 コード執筆 検品・修正・納品

このワークフローなら、Claudeが消費するトークンは指示出しとレビューの分だけ。コード生成の大量トークンはローカルで処理される。APIコストが劇的に下がる。

アーキテクチャ ── Claude Code + Ollama + MCP

実現するために使う技術スタックはシンプルだ。

レイヤー 技術 役割
司令塔 Claude Code(Opus 4) ユーザーの指示を理解し、タスクを分解、ローカルLLMに指示を出し、結果をレビューして納品
コード実行 Ollama + OpenClaw ローカルでLLMを動かす推論エンジン。OpenClawでエージェント的な操作も可能
橋渡し MCP Server Claude CodeからOllamaを「ツール」として呼び出すためのブリッジ
モデル Qwen 3.5-35B-A3B コーディング性能トップクラスのオープンLLM(VRAM 12GBで動作)

MCP(Model Context Protocol)とは

Anthropicが策定したオープンプロトコルで、LLMに外部ツールを接続するための標準規格。Claude Codeはこのプロトコルに対応しており、MCPサーバーを登録するだけで、Claudeが任意の外部サービスを「ツール」として使えるようになる。

つまり、OllamaをMCPサーバーとして立てれば、Claudeが「ローカルLLMにコードを書かせる」ツールを手に入れることになる。

OpenClawとは

OpenClawは、ローカルLLMをClaude Codeライクなコーディングエージェントとして動かすためのオープンソースツール。Ollamaと組み合わせることで、ローカルモデルにファイルの読み書きやコマンド実行などのエージェント機能を持たせることができる。

モデル選定 ── 2026年4月のオープンLLM比較

ローカルで動かすモデルの選定は重要だ。2026年4月時点の主要オープンLLMを比較した。

モデル 総パラメータ アクティブ VRAM目安 コーディング ライセンス
Qwen 3.5-35B-A3B 35B 3B ~8GB 最高 Apache 2.0
Gemma 4 26B-A4B 26B 3.8B ~9GB 非常に高い Apache 2.0
Qwen 3.5-9B 9B 9B ~10GB 高い Apache 2.0
Mistral Small 4 119B 6B ~12GB 高い Apache 2.0
DeepSeek R1蒸留14B 14B 14B ~9GB 中〜高 MIT
Qwen 3.5-27B 27B 27B ~16GB VRAM不足 Apache 2.0

選定結果: Qwen 3.5-35B-A3B

MoE(Mixture of Experts)アーキテクチャにより、総パラメータ35Bの知識量を持ちながら、推論時はわずか3Bしかアクティブにならない。

VRAM 12GBに余裕で収まり、コーディングベンチマークでは同サイズ帯トップ。9BモデルですらGPT-OSS-120Bを上回る結果を出しているQwenファミリーの強みがそのまま活きる。

次点: Gemma 4 26B-A4B(2026年4月2日リリースの最新モデル。パラメータ効率が非常に高い)

実行環境 ── 手持ちのPCで十分動く

今回の検証環境は以下の通り。ゲーミングPCや自作PCとして一般的なスペックだ。

パーツ スペック ポイント
CPU AMD Ryzen 9 9900X(12C/24T) Ollamaの前処理に十分
RAM 64GB DDR5 モデルのCPUオフロードにも対応可能
GPU NVIDIA RTX 3080 Ti(VRAM 12GB) MoEモデル(3B〜4Bアクティブ)なら余裕
OS Windows 11 Pro Ollama / OpenClaw 対応済み

最低要件の目安

GPU: VRAM 8GB以上(RTX 3060 12GB / RTX 4060 8GBなど)

RAM: 32GB以上推奨(モデルの一部がCPUにオフロードされるため)

VRAM 8GBの場合はQwen 3.5-9BのQ4量子化(~6GB)を選ぶとよい。

セットアップ手順

Step 1: Ollamaのインストールとモデル取得

# Ollamaのインストール(未インストールの場合)
# https://ollama.com からダウンロード

# Ollama起動
ollama serve

# メインモデルの取得
ollama pull qwen3.5:35b-a3b-q4_K_M

# サブモデル(軽量・高速)
ollama pull qwen3.5:9b-q8_0

# 比較用にGemma 4も
ollama pull gemma4:26b-a4b-q4_K_M

Step 2: OpenClawのインストール

# OpenClawのインストール
npm install -g openclaw

# Ollamaバックエンドで起動
openclaw --provider ollama --model qwen3.5:35b-a3b-q4_K_M

OpenClawを使うことで、ローカルLLMにClaude Codeと同様のエージェント機能(ファイル読み書き、コマンド実行、コード生成)を持たせることができる。Claude Codeから直接指示を出す代わりに、OpenClawに作業を委任するワークフローも構築可能だ。

Step 3: MCP Serverの構築

Claude CodeからOllamaを「ツール」として呼ぶためのMCPサーバーを作る。

# Ollama MCP Server のセットアップ
npm install -g ollama-mcp-server

# Claude Codeの設定に追加
# ~/.claude/settings.json に以下を追記:
{
  "mcpServers": {
    "ollama": {
      "command": "ollama-mcp-server",
      "args": ["--model", "qwen3.5:35b-a3b-q4_K_M"]
    }
  }
}

Step 4: 実際のワークフロー

セットアップが完了すると、以下のような開発フローが実現する。

  1. ユーザーがClaude Codeに指示「このAPIエンドポイントにバリデーションを追加して」
  2. Claudeが設計── 既存コードを読み、バリデーションの方針を決定
  3. Claudeがローカルに委任── MCPツール経由で「この仕様でコードを書け」と指示
  4. ローカルLLMがコード生成── Qwen 3.5がコードを出力(APIコストゼロ)
  5. Claudeがレビュー── 出力されたコードの品質・セキュリティをチェック
  6. 問題があれば修正指示、なければファイルに書き込んで完了

コスト試算 ── どれだけ削減できるか

典型的な開発セッション(1日8時間)でのトークン消費を推定した。

項目 従来(全部Claude) ハイブリッド方式
コード生成トークン ~300K出力 0(ローカル処理)
設計・レビュートークン ~100K入出力 ~100K入出力
コンテキスト読み込み ~200K入力 ~80K入力
1日あたりAPI費用 $20〜50 $3〜8
月間費用(20営業日) $400〜1,000 $60〜160

APIコスト削減率

80〜90%

コード生成の大量トークンをローカルに移すことで、Claudeの消費はレビューと設計判断のみに。月間$400〜1,000が$60〜160に圧縮される。

電気代は増えるが、RTX 3080 Tiの消費電力350Wで8時間稼働しても1日約80円。月間1,600円程度で、API削減額に比べれば誤差の範囲だ。

限界と注意点

この方式が向いているケース

Claudeに任せるべきケース

品質保証はClaudeが担う

ローカルLLMの出力は必ずClaudeがレビューする。ローカルLLMは「速くてタダだが、たまに間違える賢いジュニア」だと思うのがちょうどいい。最終的な品質はClaudeが保証するので、ユーザーが品質低下を感じることはない。

まとめ

今回検証した「Claude + ローカルLLMのハイブリッド開発体制」をまとめる。

構成まとめ

司令塔: Claude Code(Opus 4)── 設計・レビュー・品質保証

実行部隊: Ollama + Qwen 3.5-35B-A3B ── コード生成(VRAM 12GBで動作)

エージェント: OpenClaw ── ローカルLLMにファイル操作・コマンド実行能力を付与

接続: MCP Server ── Claude CodeとOllamaをつなぐブリッジ

コスト削減: 月間APIコストを80〜90%削減($400〜1,000 → $60〜160)

オープンソースLLMの性能向上が著しい2026年、もはや「全部クラウドAPI」にこだわる理由は薄い。考える仕事はクラウド、書く仕事はローカル ── この分業モデルが、個人開発者や小規模チームのAI開発コストを現実的なラインに引き下げてくれる。

ふくろいAIラボでは、この体制を実際の開発プロジェクトに導入し、継続的に検証していく予定だ。結果はこのブログで随時報告する。