AI コーディングエージェントの最新動向
AI コーディングエージェント: Intelligence Brief Key Judgments マルチエージェントアーキテクチャが実験段階から製品標準へ移行した。 Confidence: HIGH Anthropic Agent Teams、Cursor Subagents、VS Code Multi-Agent、Codex macOS App が全て 2026 Q1 に並列エージェント機能をリリース。Gartner によるマルチエージェント関連の問い合わせは 2024 Q1→2025 Q2 で 1,445% 急増(Gartner)。Apple Xcode 26.3 の MCP ベースエージェント統合が、IDE レベルでの標準化を決定づけた(Apple)。
コーディングエージェントの自律持続時間は 7 ヶ月倍増ペースで拡大しており、「数時間タスク」が現在の実用フロンティアである。 Confidence: MODERATE METR データに基づく Matt Shumer の分析で、タスク完了能力が約 7 ヶ月ごとに倍増と示唆(shumer.dev, 4,000 万ビュー超)。GPT-5.3-Codex は 30 分自律実行を製品化(OpenAI)。ただし METR の制御実験では開発者が主観 +20% と感じたのに対し実測 -19% という生産性パラドックスが存在し(METR)、能力拡大と実効性の間にギャップが残る。
ベンチマークの信頼性が構造的に毀損しており、業界は「ポストベンチマーク時代」に入りつつある。 Confidence: HIGH SWE-rebench(月次新規タスク)でトップモデルが 55-58% に対し SWE-bench Verified では 80% と 20pt 以上乖離。arXiv 2602.04449 は「成功パッチの 32-33% に解答漏洩」を実証(arXiv)。Nathan Lambert は “benchmark-based release reactions barely matter” と断言(Interconnects)。実践者の head-to-head 評価が市場判断の主要指標になりつつある。