メインコンテンツへスキップ

マルチモデルワークフロー

マルチモデルワークフロー: Intelligence Brief (Delta)

前回ブリーフィング(2026-02-12, scope: 2025-10 ~ 2026-02-12)からの更新。同日に追加収集した学習ベースルーティング研究、Codex ↔ Claude 双方向オーケストレーション、ターミナル統合環境の新規エビデンスに基づくデルタ。

Key Judgments

  1. マルチモデルワークフローの価値は「失敗モードの多様化」から「学習済みルーティングによるコスト・品質の自動最適化」へと進化しつつある。 — Confidence: HIGH — 前回ブリーフィングでは手動のタスク別モデル選択が主流だったが、xRouter(Salesforce, 2025-10)が強化学習で最大80%コスト削減を達成し、RouteMoA(2026-01)がコスト89.8%・レイテンシ63.6%削減を実証。Amazon Bedrock Intelligent Prompt Routing(GA 2025-04)も同一ファミリ内で60%コスト削減を実現しており、ルーティングの自動化が研究段階から本番実装段階に移行している (arxiv: xRouter, arxiv: RouteMoA, AWS Bedrock)。

  2. Codex ↔ Claude の双方向オーケストレーションが確立し、MCP を介した司令塔モデルが固まりつつある。 — Confidence: HIGH — 前回は Claude → Codex の一方向 MCP 連携のみだったが、Matt Shumer(@mattshumer_, 2026-02-07, 500 likes)が Codex から claude -p で Claude Code セッションを起動するパターンを実証。これにより Codex → Claude、Claude → Codex の双方向委譲が可能となり、タスクに応じて司令塔を動的に選択できる構成が現実化した。

  3. ターミナルベースのマルチエージェント統合環境が急速に成熟している。 — Confidence: HIGH — Warp 2.0 が自社エージェント Oz + Claude Code + Codex + Gemini CLI の同時実行を実現(Warp)。Agent-of-Empires(628 stars, v0.11.2, 2026-02)は tmux + git worktree で 5 つの CLI エージェントを並列管理。Claude-Code-Workflow(catlog22)は JSON 駆動のマルチエージェント開発フレームワークを提供。ターミナルがマルチモデルオーケストレーションの主戦場になっている (Tembo, GitHub: agent-of-empires)。

  4. タスク特性によるモデル選択コンセンサスが再構成されつつある — Opus 4.6 と GPT-5.3-Codex の登場で勢力図が変動中。 — Confidence: MODERATE — Matt Shumer(@mattshumer_, 2026-02-11, 266 likes)は “Use the most recent models (try GPT-5.2 Pro in ChatGPT, GPT-5.3-Codex in Codex, Opus 4.5 in Claude)” と推奨。Faros AI(2026-02)の開発者レビューでは、計画フェーズに Opus、実装に Sonnet/Composer-1、検証に GPT-5.2-Codex というレイヤード戦略が報告されている。一方 Addy Osmani(@addyosmani, 2026-02-10, 83 likes)は Gemini のコーディング競争力強化を明言しており、3 社間の競争が激化中 (Faros AI)。

  5. OSS オーケストレーションツールの急増は続いているが、「統合環境」と「学術的ルーティング」の二極化が見え始めている。 — Confidence: MODERATE — 開発者向けツールは Agent-of-Empires、Claude-Code-Workflow、claude_code_bridge、myclaude 等が乱立。一方学術側では xRouter、RouteMoA、Dynamic Mix Precision Routing(2026-02-02)等の学習ベースルーターが登場。LangGraph・CrewAI・AutoGen の 3 フレームワークがエージェントオーケストレーション層では優勢だが、コーディング CLI のマルチモデル層とは別レイヤーとして発展している (aimultiple.com, arxiv: 2602.02711)。

Developments

学習ベース LLM ルーティングの台頭

自動ルーティングが研究から本番段階へ移行する動きが加速している。Salesforce AI Research の xRouter(2025-10)は、Qwen2.5-7B-Instruct をルーターバックボーンとし、DAPO(Distributional Advantage Policy Optimization)で学習した強化学習ベースのルーティングシステムである。20 以上の LLM から動的に最適モデルを選択し、コストペナルティの調整で最大 80% のコスト削減を達成。GPT-5 の 80-90% の精度を 1/5 のコストで実現する (MarkTechPost, 2025-11-25)。

RouteMoA(2026-01)はさらに進んだアプローチで、軽量スコアラーによる事前スクリーニングと Mixture of Judges による事後補正を組み合わせ、追加推論なしでモデル選択を最適化する。大規模モデルプールでコスト 89.8%、レイテンシ 63.6% の削減を達成 (arxiv, 2026-01-30)。

Dynamic Mix Precision Routing(Li et al., 2026-02-02)は、マルチステップ推論タスクにおいて高精度モデルと量子化モデルを各ステップで動的に切り替えるフレームワーク。KL ダイバージェンス教師あり学習 + GRPO(Group-Relative Policy Optimization)の 2 段階パイプラインで精度-コストのトレードオフを最適化する (arxiv, 2026-02-02)。

プロダクション側では Amazon Bedrock Intelligent Prompt Routing が 2025-04 に GA となり、同一モデルファミリ内での自動ルーティングで最大 60% のコスト削減(Anthropic ファミリでの社内テスト)を実現している (AWS, 2025-04)。

Codex ↔ Claude 双方向オーケストレーション

前回ブリーフィングでは Claude Code を司令塔として Codex を MCP 経由で呼び出す一方向パターンを報告した。今回、逆方向のパターンが確認された。Matt Shumer(@mattshumer_, 2026-02-07, 500 likes, 50K views)は Codex が claude -p コマンドで Claude Code セッションを起動し、デザイン作業を委譲するパターンを実証した。

これにより、タスク特性に応じて司令塔を動的に選択する構成が可能になった。設計・計画は Claude が得意、長時間の実装・デバッグは Codex が得意という補完関係を、固定的な主従ではなく対等な双方向委譲として実装できる。Shumer は同時期に “if you think 4.6 is good, you should really try GPT-5.3-Codex. It’s significantly better.” (2026-02-11, 111 likes)とも述べており、モデル世代の更新がワークフロー構成の見直しを促している。

ターミナルベースのマルチエージェント統合環境

2026 年に入り、ターミナルをマルチモデルオーケストレーションのハブとする動きが加速している。

Warp 2.0 は自社 SOTA エージェント Oz に加え、Claude Code、Codex、Gemini CLI を同一インターフェースで同時実行可能な唯一のターミナルとして差別化を図っている。The New Stack のインタビュー(2026-02)で Warp CEO は、ターミナルがエージェントとの作業に最適なインターフェースとして再評価されている点を強調した (The New Stack)。

Agent-of-Empires(628 stars, 51 releases, Rust 製)は tmux をラップし、Claude Code、OpenCode、Mistral Vibe、Codex CLI、Gemini CLI の 5 つのエージェントを TUI ダッシュボードで管理する。git worktree による並列ブランチ作業と Docker サンドボックスをサポート (GitHub, v0.11.2, 2026-02)。

Claude-Code-Workflow(catlog22)は JSON 駆動のマルチエージェント開発フレームワークで、.task/IMPL-*.json を single source of truth とし、Gemini/Qwen/Codex を自動選択・並列実行する。ワークフローレベルは Level 1(即時実行)から Level 4(マルチロールブレインストーミング)まで段階的に提供 (GitHub: Claude-Code-Workflow)。

Addy Osmani(@addyosmani, 2026-02-09)は “If you mention orchestration, swarms etc. to folks outside of here and the Bay Area, it’s often a total surprise. We’re very much on the edge here.” と述べ、マルチエージェントオーケストレーションがまだアーリーアダプター段階にある点を指摘した。

コスト最適化のための実践的ルーティング戦略

Qiita(takavunguyen, ~2026-02)のデュアルモデルアーキテクチャ記事は、日本語圏での実践的なルーティング戦略を示している。軽量モデル(Gemini Flash, Claude Haiku, GPT-5 mini)で定型タスク(ドキュメント生成、翻訳、コメント生成)を処理し、重量モデル(GPT-5.2, Claude 4.5 Sonnet/Opus)をアーキテクチャ設計やセキュリティレビューに限定することで、API コスト 70-80% 削減を報告している (Qiita)。

エンタープライズ側では、IDC(2025-11)が 2028 年までに AI 先進企業の 70% がマルチツールアーキテクチャで動的モデルルーティングを管理すると予測。Swfte AI の分析では、インテリジェント LLM ルーティングで最大 85% のコスト削減が可能とされる。RouteLLM(lm-sys)は OpenAI クライアントのドロップイン代替として、最大 85% のコスト削減と GPT-4 品質の 95% 維持を実証している (IDC, 2025-11, GitHub: RouteLLM)。

モデル別タスク適性の最新コンセンサス

Faros AI(2026-02)の開発者レビューに基づく最新のレイヤード戦略:

フェーズ推奨モデル根拠
計画・アーキテクチャ設計Claude Opus 4.5/4.6マルチステップ推論、意図理解に強い
実装・イテレーションClaude Sonnet 4.5 / Composer-1速度重視の edit-test ループに最適
長時間・高リスクタスクGPT-5.3-Codex慎重かつ正確、コンテキストコンパクション
大規模リポジトリ合成Gemini 3 Pro1M トークン、高速・低コスト
最終検証・コードレビューGPT-5.2-Codexエッジケース検出に優れる

ただし Tembo(2026-02)の CLI ツール比較では、勝負はコード生成品質ではなくコンテキスト理解(コードベース・git 履歴・規約への適応)に移行していると指摘。Crush のようなミッドセッションでのモデル切り替え機能や、Kilo の 500+ モデル対応 pay-as-you-go も注目される (Faros AI, Tembo)。

Open Questions

  • 学習ベースルーター(xRouter, RouteMoA)はコーディング CLI のマルチモデルワークフローに統合されるか? 現在は API レベルのルーティングと CLI レベルのモデル選択が別レイヤーとして発展しており、統合のタイムラインは不明確。
  • Codex ↔ Claude 双方向オーケストレーションの最適な委譲境界はどこか? 現時点では開発者の経験則に依存しており、タスク特性に基づく自動委譲の仕組みは未確立。
  • モデル間の能力差が縮小する中、マルチモデルワークフローのコスト対効果は長期的に正当化されるか? → 学習ベースルーティングの研究が 60-90% のコスト削減を実証しており、コスト正当化の根拠が強化された。ただし「どのモデルをプールに含めるか」の選択コストは依然として残る。
  • OSS オーケストレーションツールの乱立は収斂に向かうか? → ターミナル統合環境(Warp, AoE)とフレームワーク層(LangGraph, CrewAI)の二極化が見え始めているが、標準化にはまだ至っていない。
  • ターミナルベースのマルチエージェント環境は IDE を置き換えるか? Warp CEO は肯定的だが、Addy Osmani の指摘通りアーリーアダプター段階にとどまっている。

Sources

学術論文

公式ブログ・ドキュメント

開発者ブログ・レビュー

OSS ツール

X/Twitter

  • @mattshumer_ (2026-02-07): Codex → Claude Code 双方向オーケストレーション実証, 500 likes
  • @mattshumer_ (2026-02-11): モデル推奨 “GPT-5.3-Codex in Codex, Opus 4.5 in Claude”, 266 likes
  • @addyosmani (2026-02-10): Gemini コーディング競争力強化宣言, 83 likes
  • @addyosmani (2026-02-09): オーケストレーションはアーリーアダプター段階
  • @Isuleims (2026-02-09): DGrid マルチモデル統合 API, 95 likes

前回ブリーフィングからの継続ソース