Codex vs Claude: Intelligence Brief (Delta)
前回ブリーフィング(2026-02-12, scope: 2025-10 ~ 2026-02-12)からの更新。同日に追加収集した新規ソース・エビデンスに基づくデルタ。
Key Judgments
差別化の軸がモデル性能からプロダクト UX・CLI 機能成熟度・オーケストレーション能力へ決定的にシフトしている(前回判断を強化) — Confidence: HIGH — Nathan Lambert (2026-02-09) は “benchmark-based release reactions barely matter” と明言。Eric Hartford (@QuixiAI, 2026-02-08) は「ベンチマークでは Codex が上だが、Claude Code の方が 2-3x faster に作業完了する」と指摘。Pankaj Kumar の “The Benchmark Paradox” ポスト(485 likes, 52K views, 2026-02-08)が開発者コミュニティで広く共感を得ている。Tembo (2026-02-06) は 15 CLI ツールの比較で「context understanding が競争優位を決定する」と結論。(Interconnects, @QuixiAI, @pankajkumar_dev, Tembo)
マルチモデルオーケストレーションが単一モデル選択を超える主流ワークフローとして確立しつつある(新規判断) — Confidence: MODERATE — “build with Opus, debug with Codex” パターンが複数の実務者(@nicko_ai, @housecor, 2026-02-08)から報告。Zenn の “Claude Code Orchestra” 記事 (2026-01-30) は Claude Code をオーケストレーターとし、Codex を深い推論、Gemini を大規模コンテキスト処理に配置する 6 フェーズワークフローを提案。GitHub 上にも myclaude, AionUi 等のマルチモデル CLI オーケストレーションツールが複数出現。(Zenn: Claude Code Orchestra, GitHub: myclaude)
Claude Code 2.1 系の機能拡充が CLI ツール競争でリードを拡大している(新規判断) — Confidence: MODERATE — Claude Code 2.1 (2026-01-07〜) で Agent Teams(マルチセッション協調)、LSP ツール(go-to-definition, find-references)、Skills hot reload、/teleport to claude.ai を追加。Qiita の機能比較 (tomada, 2025-09) では Claude Code のサブエージェント、output styles、hooks が Codex CLI にない独自機能として評価。一方 Codex CLI も 0.86〜0.94 で Plan Mode デフォルト化、Skills (.agents/skills)、並列シェル実行を追加し追従中。(Claude Code CHANGELOG, Qiita: 機能比較, Codex Changelog)
Codex 5.3 のコーディング性能向上により、Claude Code からの乗り換え検討が初めて現実的な選択肢になっている(前回判断を更新) — Confidence: MODERATE — Cory House (@housecor, 269 likes, 2026-02-09): “5.3 is the first time I’m considering switching from Claude Code to Codex as my primary”。Theo (@theo, 2026-02-08): 3 週間の 5.3 Codex 使用で “incredible model” と評価。Terminal-Bench 2.0 で Codex 5.3 が 77.3%(前回報告 75.1% から上昇)vs Claude 65.4%。ただし Udi Wertheimer (@udiWertheimer, 123 likes, 2026-02-08) は「コーディングエージェントとしては Codex が上だが、対話・分析では Opus 4.6 が圧倒的」と使い分けを主張。(@housecor, @theo, @udiWertheimer, NxCode)
Developments
CLI 機能競争:Claude Code が Agent Teams と LSP で先行
Claude Code 2.1 系(2026-01-07〜2026-02 月)は同ツールのローンチ以来最大の機能拡充となった。Agent Teams (v2.1.32+) はマルチセッション協調を可能にし、チームリーダーがタスク割り当て・依存関係管理・結果統合を自動処理する。LSP ツールの追加により go-to-definition や find-references がエージェント内部から利用可能になり、コード理解精度が向上した。Skills は hot reload・forked context・カスタムエージェント対応で、/ コマンドによる呼び出しが可能。(Claude Code Docs: Agent Teams, Claude Code CHANGELOG)
一方 Codex CLI は 0.86〜0.94 で SKILL.toml による Skills 定義、Plan Mode のデフォルト化(TUI でのストリーミング表示付き)、Web Search、並列シェル実行を追加。personality 設定が stable になり friendly がデフォルト。v2 app-server では async thread/compact triggering と websocket rate_limit signaling を導入。ただし Codex CLI にはサブエージェント機能の等価物がなく、profile switching で代替している状態。(Codex Changelog, Codex CLI Features)
実務者の声:「ベンチマークパラドックス」の定着
2026 年 2 月上旬の X/Twitter では、ベンチマーク上の Codex 優位と実際の作業効率での Claude Code 優位という「パラドックス」が繰り返し議論された。Eric Hartford (@QuixiAI, 2026-02-08, 47 likes) は「時間あたりの作業量で測ると Claude Code が 2-3x faster」と定量評価。Haider (@slow_developer, 2026-02-09, 54 likes) は「Claude Code は速すぎてファイルをスキップすることがある。Codex は全ファイルを読んでから行動する」とコンテキスト収集の差を指摘。
速度面では、Claude は約 95 tokens/sec、Codex は 240+ tokens/sec と Codex が高速だが、セッション単位の出力量では Claude が 5 分で 1,200 行 vs Codex が 10 分で 200 行という報告があり、トークン速度と実効生産性が反比例する構造が浮かび上がっている。(SmartScope, NxCode)
マルチモデルオーケストレーションの台頭
単一ツール選択から複数モデルの戦略的使い分けへの移行が加速している。Zenn の “Claude Code Orchestra” (mkj, 2026-01-30) は、Claude Code をオーケストレーターとし /startproject スキルで 6 フェーズの自動ワークフローを構築:(1) Gemini によるリポジトリ・ライブラリ調査、(2) Claude による要件収集、(3) Codex によるプラン レビュー、(4) Claude によるタスクリスト作成、(5) ドキュメント更新、(6) マルチセッション QA。6 つの Python hooks が開発トリガーを監視し、適切なエージェントの関与を自動提案する。
GitHub 上にもマルチモデル CLI オーケストレーションツールが複数出現(myclaude, AionUi, claude-flow 等)。Faros AI (2026) は「GPT for reasoning, Claude for coding, Gemini for multimodal」というモデルルーティング戦略を推奨。OpenCode(95K+ GitHub stars, 2.5M monthly developers)は 75+ LLM プロバイダー対応のモデル非依存型 CLI として急成長しており、特定ベンダーへのロックインを避けたいチームの受け皿になっている。(Zenn: Claude Code Orchestra, Faros AI, Builder.io: OpenCode vs Claude Code)
ベンチマーク最新状況
SWE-Bench Verified (2026-02 月時点) では Opus 4.5 が 80.9%、Opus 4.6 が 80.8%、GPT-5.2 が 80.0% と上位が拮抗。Terminal-Bench 2.0 では Codex 5.3 が 77.3%(前回報告の 75.1% から上昇)vs Claude 65.4%(前回 59.3% から上昇)で、DevOps 系タスクでの Codex 優位が継続。注目すべきは Alibaba の Qwen3-Coder-Next が 3B パラメータで SWE-Bench Verified 70.6% を達成し、小型モデルの急追が進んでいる点。また Droid (Factory) が Terminal-Bench で 58.75% とエージェントフレームワーク単体で高スコアを記録。(Epoch AI: SWE-bench, marc0.dev Leaderboard, Tembo)
価格とエンタープライズ採用
Claude は Pro ($20/月)、Max ($100/月 5x, $200/月 20x)、Team ($30/席/月 + Claude Code)、Enterprise ($60/席/月, 最低 70 席) の階層構造。Codex は ChatGPT Plus/Pro/Team/Enterprise サブスクリプションに含まれ、API 利用は別途課金。個人利用では Claude Pro と ChatGPT Plus が同額 $20/月だが、ヘビーユースでは Codex Pro ユーザーのほうがレート制限に達しにくいとの報告がある。エンタープライズレベルでは Claude の Premium 席が $150/人/月で Claude Code アクセス付き。Anthropic は Reuters 報道 (2025-05) で年間売上 $3B に到達。(eesel.ai, Claude Pricing, Finout)
Open Questions
収束が進む中、次の差別化ポイントはどこに生まれるか→ 部分的に解決: マルチモデルオーケストレーションと CLI 機能の成熟度が現時点の差別化軸として確立。ただし次世代の差別化(マルチモーダル統合、ドメイン特化等)は未確定- SonarSource のセキュリティ指標差(198 vs 16 件/MLOC)は最新モデル(Opus 4.6, Codex 5.3)でも維持されているか — 未検証
- Codex の一貫性のばらつきはモデル更新で改善傾向にあるか — 一部改善報告あり(Cory House: “one shots more”)だが定量検証は未確認
- Claude のショートカット傾向は Opus 4.6 で改善されたか — Haider (@slow_developer) が「速すぎてファイルをスキップ」と報告、改善は限定的
- NEW: Agent Teams / マルチモデルオーケストレーションの生産性向上は定量的に検証されているか — 現時点では事例報告のみ
- NEW: OpenCode 等のモデル非依存 CLI が普及した場合、ベンダー専用 CLI の市場はどう変化するか
Sources
ベンチマーク・定量データ
- Scale AI SWE-Bench Pro Leaderboard
- Epoch AI: SWE-Bench Verified
- marc0.dev: SWE-Bench Verified Leaderboard February 2026
- SmartScope Benchmark Comparison
- NxCode: GPT-5.3 Codex vs Claude Opus 4.6
実務レビュー・比較
- Builder.io: Codex vs Claude Code — Steve Sewell, ~2026-01
- Nathan Lambert / Interconnects: Opus 4.6 vs Codex 5.3 — 2026-02-09
- Tembo: 2026 Guide to Coding CLI Tools (15 tools) — 2026-02-06
- Builder.io: OpenCode vs Claude Code
CLI 機能・リリース
- Claude Code CHANGELOG
- Codex Changelog
- Codex CLI Features
- Claude Code Docs: Agent Teams
- Qiita: Claude Code・Codex CLI の機能比較 — tomada, 2025-09
マルチモデルオーケストレーション
- Zenn: Claude Code Orchestra — mkj, 2026-01-30
- Faros AI: Best AI Models for Coding 2026
- GitHub: myclaude (multi-agent orchestration)
X/Twitter(2026-02-07〜09)
- @housecor (Cory House) — 2026-02-09, 269 likes: Codex 5.3 switching consideration
- @udiWertheimer (Udi Wertheimer) — 2026-02-08, 123 likes: Codex for coding, Opus for chatting
- @QuixiAI (Eric Hartford) — 2026-02-08, 47 likes: Claude Code 2-3x faster per hour
- @slow_developer (Haider) — 2026-02-09, 54 likes: context gathering comparison
- @pankajkumar_dev (Pankaj Kumar) — 2026-02-08, 485 likes: Benchmark Paradox
- @theo (Theo / t3.gg) — 2026-02-08: 3-week Codex 5.3 review
エンタープライズ・価格
その他(前回から継続)