メインコンテンツへスキップ

Codex vs Claude:特性比較(Delta)

Codex vs Claude: Intelligence Brief (Delta)

前回ブリーフィング(2026-02-12, scope: 2025-10 ~ 2026-02-12)からの更新。同日に追加収集した新規ソース・エビデンスに基づくデルタ。

Key Judgments

  1. 差別化の軸がモデル性能からプロダクト UX・CLI 機能成熟度・オーケストレーション能力へ決定的にシフトしている(前回判断を強化) — Confidence: HIGH — Nathan Lambert (2026-02-09) は “benchmark-based release reactions barely matter” と明言。Eric Hartford (@QuixiAI, 2026-02-08) は「ベンチマークでは Codex が上だが、Claude Code の方が 2-3x faster に作業完了する」と指摘。Pankaj Kumar の “The Benchmark Paradox” ポスト(485 likes, 52K views, 2026-02-08)が開発者コミュニティで広く共感を得ている。Tembo (2026-02-06) は 15 CLI ツールの比較で「context understanding が競争優位を決定する」と結論。(Interconnects, @QuixiAI, @pankajkumar_dev, Tembo)

  2. マルチモデルオーケストレーションが単一モデル選択を超える主流ワークフローとして確立しつつある(新規判断) — Confidence: MODERATE — “build with Opus, debug with Codex” パターンが複数の実務者(@nicko_ai, @housecor, 2026-02-08)から報告。Zenn の “Claude Code Orchestra” 記事 (2026-01-30) は Claude Code をオーケストレーターとし、Codex を深い推論、Gemini を大規模コンテキスト処理に配置する 6 フェーズワークフローを提案。GitHub 上にも myclaude, AionUi 等のマルチモデル CLI オーケストレーションツールが複数出現。(Zenn: Claude Code Orchestra, GitHub: myclaude)

  3. Claude Code 2.1 系の機能拡充が CLI ツール競争でリードを拡大している(新規判断) — Confidence: MODERATE — Claude Code 2.1 (2026-01-07〜) で Agent Teams(マルチセッション協調)、LSP ツール(go-to-definition, find-references)、Skills hot reload、/teleport to claude.ai を追加。Qiita の機能比較 (tomada, 2025-09) では Claude Code のサブエージェント、output styles、hooks が Codex CLI にない独自機能として評価。一方 Codex CLI も 0.86〜0.94 で Plan Mode デフォルト化、Skills (.agents/skills)、並列シェル実行を追加し追従中。(Claude Code CHANGELOG, Qiita: 機能比較, Codex Changelog)

  4. Codex 5.3 のコーディング性能向上により、Claude Code からの乗り換え検討が初めて現実的な選択肢になっている(前回判断を更新) — Confidence: MODERATE — Cory House (@housecor, 269 likes, 2026-02-09): “5.3 is the first time I’m considering switching from Claude Code to Codex as my primary”。Theo (@theo, 2026-02-08): 3 週間の 5.3 Codex 使用で “incredible model” と評価。Terminal-Bench 2.0 で Codex 5.3 が 77.3%(前回報告 75.1% から上昇)vs Claude 65.4%。ただし Udi Wertheimer (@udiWertheimer, 123 likes, 2026-02-08) は「コーディングエージェントとしては Codex が上だが、対話・分析では Opus 4.6 が圧倒的」と使い分けを主張。(@housecor, @theo, @udiWertheimer, NxCode)

Developments

CLI 機能競争:Claude Code が Agent Teams と LSP で先行

Claude Code 2.1 系(2026-01-07〜2026-02 月)は同ツールのローンチ以来最大の機能拡充となった。Agent Teams (v2.1.32+) はマルチセッション協調を可能にし、チームリーダーがタスク割り当て・依存関係管理・結果統合を自動処理する。LSP ツールの追加により go-to-definition や find-references がエージェント内部から利用可能になり、コード理解精度が向上した。Skills は hot reload・forked context・カスタムエージェント対応で、/ コマンドによる呼び出しが可能。(Claude Code Docs: Agent Teams, Claude Code CHANGELOG)

一方 Codex CLI は 0.86〜0.94 で SKILL.toml による Skills 定義、Plan Mode のデフォルト化(TUI でのストリーミング表示付き)、Web Search、並列シェル実行を追加。personality 設定が stable になり friendly がデフォルト。v2 app-server では async thread/compact triggering と websocket rate_limit signaling を導入。ただし Codex CLI にはサブエージェント機能の等価物がなく、profile switching で代替している状態。(Codex Changelog, Codex CLI Features)

実務者の声:「ベンチマークパラドックス」の定着

2026 年 2 月上旬の X/Twitter では、ベンチマーク上の Codex 優位と実際の作業効率での Claude Code 優位という「パラドックス」が繰り返し議論された。Eric Hartford (@QuixiAI, 2026-02-08, 47 likes) は「時間あたりの作業量で測ると Claude Code が 2-3x faster」と定量評価。Haider (@slow_developer, 2026-02-09, 54 likes) は「Claude Code は速すぎてファイルをスキップすることがある。Codex は全ファイルを読んでから行動する」とコンテキスト収集の差を指摘。

速度面では、Claude は約 95 tokens/sec、Codex は 240+ tokens/sec と Codex が高速だが、セッション単位の出力量では Claude が 5 分で 1,200 行 vs Codex が 10 分で 200 行という報告があり、トークン速度と実効生産性が反比例する構造が浮かび上がっている。(SmartScope, NxCode)

マルチモデルオーケストレーションの台頭

単一ツール選択から複数モデルの戦略的使い分けへの移行が加速している。Zenn の “Claude Code Orchestra” (mkj, 2026-01-30) は、Claude Code をオーケストレーターとし /startproject スキルで 6 フェーズの自動ワークフローを構築:(1) Gemini によるリポジトリ・ライブラリ調査、(2) Claude による要件収集、(3) Codex によるプラン レビュー、(4) Claude によるタスクリスト作成、(5) ドキュメント更新、(6) マルチセッション QA。6 つの Python hooks が開発トリガーを監視し、適切なエージェントの関与を自動提案する。

GitHub 上にもマルチモデル CLI オーケストレーションツールが複数出現(myclaude, AionUi, claude-flow 等)。Faros AI (2026) は「GPT for reasoning, Claude for coding, Gemini for multimodal」というモデルルーティング戦略を推奨。OpenCode(95K+ GitHub stars, 2.5M monthly developers)は 75+ LLM プロバイダー対応のモデル非依存型 CLI として急成長しており、特定ベンダーへのロックインを避けたいチームの受け皿になっている。(Zenn: Claude Code Orchestra, Faros AI, Builder.io: OpenCode vs Claude Code)

ベンチマーク最新状況

SWE-Bench Verified (2026-02 月時点) では Opus 4.5 が 80.9%、Opus 4.6 が 80.8%、GPT-5.2 が 80.0% と上位が拮抗。Terminal-Bench 2.0 では Codex 5.3 が 77.3%(前回報告の 75.1% から上昇)vs Claude 65.4%(前回 59.3% から上昇)で、DevOps 系タスクでの Codex 優位が継続。注目すべきは Alibaba の Qwen3-Coder-Next が 3B パラメータで SWE-Bench Verified 70.6% を達成し、小型モデルの急追が進んでいる点。また Droid (Factory) が Terminal-Bench で 58.75% とエージェントフレームワーク単体で高スコアを記録。(Epoch AI: SWE-bench, marc0.dev Leaderboard, Tembo)

価格とエンタープライズ採用

Claude は Pro ($20/月)、Max ($100/月 5x, $200/月 20x)、Team ($30/席/月 + Claude Code)、Enterprise ($60/席/月, 最低 70 席) の階層構造。Codex は ChatGPT Plus/Pro/Team/Enterprise サブスクリプションに含まれ、API 利用は別途課金。個人利用では Claude Pro と ChatGPT Plus が同額 $20/月だが、ヘビーユースでは Codex Pro ユーザーのほうがレート制限に達しにくいとの報告がある。エンタープライズレベルでは Claude の Premium 席が $150/人/月で Claude Code アクセス付き。Anthropic は Reuters 報道 (2025-05) で年間売上 $3B に到達。(eesel.ai, Claude Pricing, Finout)

Open Questions

  • 収束が進む中、次の差別化ポイントはどこに生まれるか部分的に解決: マルチモデルオーケストレーションと CLI 機能の成熟度が現時点の差別化軸として確立。ただし次世代の差別化(マルチモーダル統合、ドメイン特化等)は未確定
  • SonarSource のセキュリティ指標差(198 vs 16 件/MLOC)は最新モデル(Opus 4.6, Codex 5.3)でも維持されているか — 未検証
  • Codex の一貫性のばらつきはモデル更新で改善傾向にあるか — 一部改善報告あり(Cory House: “one shots more”)だが定量検証は未確認
  • Claude のショートカット傾向は Opus 4.6 で改善されたか — Haider (@slow_developer) が「速すぎてファイルをスキップ」と報告、改善は限定的
  • NEW: Agent Teams / マルチモデルオーケストレーションの生産性向上は定量的に検証されているか — 現時点では事例報告のみ
  • NEW: OpenCode 等のモデル非依存 CLI が普及した場合、ベンダー専用 CLI の市場はどう変化するか

Sources

ベンチマーク・定量データ

実務レビュー・比較

CLI 機能・リリース

マルチモデルオーケストレーション

X/Twitter(2026-02-07〜09)

エンタープライズ・価格

その他(前回から継続)