Codex vs Claude：特性比較（Delta）

Codex vs Claude: Intelligence Brief (Delta)

前回ブリーフィング（2026-02-12, scope: 2025-10 ~ 2026-02-12）からの更新。同日に追加収集した新規ソース・エビデンスに基づくデルタ。

Key Judgments

差別化の軸がモデル性能からプロダクト UX・CLI 機能成熟度・オーケストレーション能力へ決定的にシフトしている（前回判断を強化） — Confidence: HIGH — Nathan Lambert (2026-02-09) は “benchmark-based release reactions barely matter” と明言。Eric Hartford (@QuixiAI, 2026-02-08) は「ベンチマークでは Codex が上だが、Claude Code の方が 2-3x faster に作業完了する」と指摘。Pankaj Kumar の “The Benchmark Paradox” ポスト（485 likes, 52K views, 2026-02-08）が開発者コミュニティで広く共感を得ている。Tembo (2026-02-06) は 15 CLI ツールの比較で「context understanding が競争優位を決定する」と結論。(Interconnects, @QuixiAI, @pankajkumar_dev, Tembo)
マルチモデルオーケストレーションが単一モデル選択を超える主流ワークフローとして確立しつつある（新規判断） — Confidence: MODERATE — “build with Opus, debug with Codex” パターンが複数の実務者（@nicko_ai, @housecor, 2026-02-08）から報告。Zenn の “Claude Code Orchestra” 記事 (2026-01-30) は Claude Code をオーケストレーターとし、Codex を深い推論、Gemini を大規模コンテキスト処理に配置する 6 フェーズワークフローを提案。GitHub 上にも myclaude, AionUi 等のマルチモデル CLI オーケストレーションツールが複数出現。(Zenn: Claude Code Orchestra, GitHub: myclaude)
Claude Code 2.1 系の機能拡充が CLI ツール競争でリードを拡大している（新規判断） — Confidence: MODERATE — Claude Code 2.1 (2026-01-07〜) で Agent Teams（マルチセッション協調）、LSP ツール（go-to-definition, find-references）、Skills hot reload、/teleport to claude.ai を追加。Qiita の機能比較 (tomada, 2025-09) では Claude Code のサブエージェント、output styles、hooks が Codex CLI にない独自機能として評価。一方 Codex CLI も 0.86〜0.94 で Plan Mode デフォルト化、Skills (.agents/skills)、並列シェル実行を追加し追従中。(Claude Code CHANGELOG, Qiita: 機能比較, Codex Changelog)
Codex 5.3 のコーディング性能向上により、Claude Code からの乗り換え検討が初めて現実的な選択肢になっている（前回判断を更新） — Confidence: MODERATE — Cory House (@housecor, 269 likes, 2026-02-09): “5.3 is the first time I’m considering switching from Claude Code to Codex as my primary”。Theo (@theo, 2026-02-08): 3 週間の 5.3 Codex 使用で “incredible model” と評価。Terminal-Bench 2.0 で Codex 5.3 が 77.3%（前回報告 75.1% から上昇）vs Claude 65.4%。ただし Udi Wertheimer (@udiWertheimer, 123 likes, 2026-02-08) は「コーディングエージェントとしては Codex が上だが、対話・分析では Opus 4.6 が圧倒的」と使い分けを主張。(@housecor, @theo, @udiWertheimer, NxCode)

Developments

CLI 機能競争：Claude Code が Agent Teams と LSP で先行

Claude Code 2.1 系（2026-01-07〜2026-02 月）は同ツールのローンチ以来最大の機能拡充となった。Agent Teams (v2.1.32+) はマルチセッション協調を可能にし、チームリーダーがタスク割り当て・依存関係管理・結果統合を自動処理する。LSP ツールの追加により go-to-definition や find-references がエージェント内部から利用可能になり、コード理解精度が向上した。Skills は hot reload・forked context・カスタムエージェント対応で、/ コマンドによる呼び出しが可能。(Claude Code Docs: Agent Teams, Claude Code CHANGELOG)

一方 Codex CLI は 0.86〜0.94 で SKILL.toml による Skills 定義、Plan Mode のデフォルト化（TUI でのストリーミング表示付き）、Web Search、並列シェル実行を追加。personality 設定が stable になり friendly がデフォルト。v2 app-server では async thread/compact triggering と websocket rate_limit signaling を導入。ただし Codex CLI にはサブエージェント機能の等価物がなく、profile switching で代替している状態。(Codex Changelog, Codex CLI Features)

実務者の声：「ベンチマークパラドックス」の定着

2026 年 2 月上旬の X/Twitter では、ベンチマーク上の Codex 優位と実際の作業効率での Claude Code 優位という「パラドックス」が繰り返し議論された。Eric Hartford (@QuixiAI, 2026-02-08, 47 likes) は「時間あたりの作業量で測ると Claude Code が 2-3x faster」と定量評価。Haider (@slow_developer, 2026-02-09, 54 likes) は「Claude Code は速すぎてファイルをスキップすることがある。Codex は全ファイルを読んでから行動する」とコンテキスト収集の差を指摘。

速度面では、Claude は約 95 tokens/sec、Codex は 240+ tokens/sec と Codex が高速だが、セッション単位の出力量では Claude が 5 分で 1,200 行 vs Codex が 10 分で 200 行という報告があり、トークン速度と実効生産性が反比例する構造が浮かび上がっている。(SmartScope, NxCode)

マルチモデルオーケストレーションの台頭

単一ツール選択から複数モデルの戦略的使い分けへの移行が加速している。Zenn の “Claude Code Orchestra” (mkj, 2026-01-30) は、Claude Code をオーケストレーターとし /startproject スキルで 6 フェーズの自動ワークフローを構築：(1) Gemini によるリポジトリ・ライブラリ調査、(2) Claude による要件収集、(3) Codex によるプランレビュー、(4) Claude によるタスクリスト作成、(5) ドキュメント更新、(6) マルチセッション QA。6 つの Python hooks が開発トリガーを監視し、適切なエージェントの関与を自動提案する。

GitHub 上にもマルチモデル CLI オーケストレーションツールが複数出現（myclaude, AionUi, claude-flow 等）。Faros AI (2026) は「GPT for reasoning, Claude for coding, Gemini for multimodal」というモデルルーティング戦略を推奨。OpenCode（95K+ GitHub stars, 2.5M monthly developers）は 75+ LLM プロバイダー対応のモデル非依存型 CLI として急成長しており、特定ベンダーへのロックインを避けたいチームの受け皿になっている。(Zenn: Claude Code Orchestra, Faros AI, Builder.io: OpenCode vs Claude Code)

ベンチマーク最新状況

SWE-Bench Verified (2026-02 月時点) では Opus 4.5 が 80.9%、Opus 4.6 が 80.8%、GPT-5.2 が 80.0% と上位が拮抗。Terminal-Bench 2.0 では Codex 5.3 が 77.3%（前回報告の 75.1% から上昇）vs Claude 65.4%（前回 59.3% から上昇）で、DevOps 系タスクでの Codex 優位が継続。注目すべきは Alibaba の Qwen3-Coder-Next が 3B パラメータで SWE-Bench Verified 70.6% を達成し、小型モデルの急追が進んでいる点。また Droid (Factory) が Terminal-Bench で 58.75% とエージェントフレームワーク単体で高スコアを記録。(Epoch AI: SWE-bench, marc0.dev Leaderboard, Tembo)

価格とエンタープライズ採用

Claude は Pro ($20/月)、Max ($100/月 5x, $200/月 20x)、Team ($30/席/月 + Claude Code)、Enterprise ($60/席/月, 最低 70 席) の階層構造。Codex は ChatGPT Plus/Pro/Team/Enterprise サブスクリプションに含まれ、API 利用は別途課金。個人利用では Claude Pro と ChatGPT Plus が同額 $20/月だが、ヘビーユースでは Codex Pro ユーザーのほうがレート制限に達しにくいとの報告がある。エンタープライズレベルでは Claude の Premium 席が $150/人/月で Claude Code アクセス付き。Anthropic は Reuters 報道 (2025-05) で年間売上 $3B に到達。(eesel.ai, Claude Pricing, Finout)

Open Questions

~~収束が進む中、次の差別化ポイントはどこに生まれるか~~ → 部分的に解決: マルチモデルオーケストレーションと CLI 機能の成熟度が現時点の差別化軸として確立。ただし次世代の差別化（マルチモーダル統合、ドメイン特化等）は未確定
SonarSource のセキュリティ指標差（198 vs 16 件/MLOC）は最新モデル（Opus 4.6, Codex 5.3）でも維持されているか — 未検証
Codex の一貫性のばらつきはモデル更新で改善傾向にあるか — 一部改善報告あり（Cory House: “one shots more”）だが定量検証は未確認
Claude のショートカット傾向は Opus 4.6 で改善されたか — Haider (@slow_developer) が「速すぎてファイルをスキップ」と報告、改善は限定的
NEW: Agent Teams / マルチモデルオーケストレーションの生産性向上は定量的に検証されているか — 現時点では事例報告のみ
NEW: OpenCode 等のモデル非依存 CLI が普及した場合、ベンダー専用 CLI の市場はどう変化するか

Sources

ベンチマーク・定量データ

実務レビュー・比較

Builder.io: Codex vs Claude Code — Steve Sewell, ~2026-01
Nathan Lambert / Interconnects: Opus 4.6 vs Codex 5.3 — 2026-02-09
Tembo: 2026 Guide to Coding CLI Tools (15 tools) — 2026-02-06
Builder.io: OpenCode vs Claude Code

CLI 機能・リリース

Claude Code CHANGELOG
Codex Changelog
Codex CLI Features
Claude Code Docs: Agent Teams
Qiita: Claude Code・Codex CLI の機能比較 — tomada, 2025-09

マルチモデルオーケストレーション

Zenn: Claude Code Orchestra — mkj, 2026-01-30
Faros AI: Best AI Models for Coding 2026
GitHub: myclaude (multi-agent orchestration)

X/Twitter（2026-02-07〜09）

@housecor (Cory House) — 2026-02-09, 269 likes: Codex 5.3 switching consideration
@udiWertheimer (Udi Wertheimer) — 2026-02-08, 123 likes: Codex for coding, Opus for chatting
@QuixiAI (Eric Hartford) — 2026-02-08, 47 likes: Claude Code 2-3x faster per hour
@slow_developer (Haider) — 2026-02-09, 54 likes: context gathering comparison
@pankajkumar_dev (Pankaj Kumar) — 2026-02-08, 485 likes: Benchmark Paradox
@theo (Theo / t3.gg) — 2026-02-08: 3-week Codex 5.3 review

エンタープライズ・価格

その他（前回から継続）