メインコンテンツへスキップ

Benchmarks

オープンソースAIモデルのコーディング能力

オープンソース AI コーディングモデル: Intelligence Brief Key Judgments オープンモデルはプロプライエタリとの性能差を実用上無視可能な水準まで縮小した (confidence: high) SWE-bench Verified のギャップは約3ポイント (GLM-5 77.8% vs Claude Opus 4.6 ~81%)。3ポイント差はスキャフォールディング条件の違いで逆転し得る範囲であり、ベンチマーク上の優位性はもはやプロプライエタリの確定的な差別化要因ではない。 Ultra-Sparse MoE がコーディング AI のコスト構造を根本から変える (confidence: high) Qwen3-Coder-Next は 3B アクティブパラメータで SWE-bench 70.6% を達成。DeepSeek V3.2 (37B active) の 12分の1の計算量で同等スコアを実現しており、消費者 GPU でのローカル推論が現実的になった。 プロプライエタリモデルの残存優位は「最後の3-8ポイント」に 50-300倍のコストプレミアムで成り立っている (confidence: high) SWE-bench 1ポイントあたりの output コストで比較すると、Qwen3-Coder-Next ($0.004/pt) は Claude Opus 4.6 ($0.313/pt) の約80分の1。この構図はコスト感度の高いユースケースでオープンモデルの採用を不可避にする。 DeepSeek V4 のリリース (2026-02-17頃予告) が実現すれば、市場構図が再編される可能性がある (confidence: low) 1M+ コンテキスト、Consumer GPU 対応が報道されているが、DeepSeek 公式の確認はなく、独立ベンチマーク結果もない。現時点では投機的情報として扱うべき。 ベンチマークスコアの絶対値よりもモデル + エージェント基盤の組み合わせが実務性能を決定する (confidence: high) 同一モデルでもスキャフォールディング (OpenHands, Aider, SWE-Agent 等) の選択で 5-10ポイントの差が生じる。HumanEval はデータ汚染リスクが高く信頼度が低い。

AI コーディングエージェント評価手法

AI コーディングエージェント評価手法: Intelligence Brief (Delta) 前回ブリーフィング (2026-02-12, scope: 2025-06 ~ 2026-02-12) は実践者の定性的評価手法に焦点を当てた。本デルタは、フォーマルなベンチマーク体系の構造的変化、新興評価フレームワーク、およびベンチマークと実世界性能のギャップに関する最新エビデンスを補完する。 Key Judgments ベンチマーク体系が「飽和→多層化→環境化」へ急速に再編されつつある — Confidence: HIGH — HumanEval は上位モデルで 95%+ に達し事実上飽和 (Statsig, 2025-10)。SWE-bench Verified も 76-81% (Verdent, 2026-02) に到達したことで、Scale AI が SWE-bench Pro (1,865 タスク、平均 107.4 行 / 4.1 ファイル変更) を投入し、トップモデルのスコアを 23-46% 帯に引き戻した (Scale AI, 2026-02)。同時に SWE-bench-Live MultiLang が C/C++/Rust/Go/Java/TS に拡張され (Microsoft, 2025-10)、Terminal-Bench 2.0 がターミナル操作の複合タスクを測定する (Laude Institute, 2025-05)。Snorkel AI は $3M の Open Benchmarks Grants を発表し、評価を「環境複雑性・自律性ホライズン・出力複雑性」の 3 軸で再定義しようとしている (Snorkel AI, 2026-02-11)。

AI コーディングエージェントの最新動向

AI コーディングエージェント: Intelligence Brief Key Judgments マルチエージェントアーキテクチャが実験段階から製品標準へ移行した。 Confidence: HIGH Anthropic Agent Teams、Cursor Subagents、VS Code Multi-Agent、Codex macOS App が全て 2026 Q1 に並列エージェント機能をリリース。Gartner によるマルチエージェント関連の問い合わせは 2024 Q1→2025 Q2 で 1,445% 急増(Gartner)。Apple Xcode 26.3 の MCP ベースエージェント統合が、IDE レベルでの標準化を決定づけた(Apple)。 コーディングエージェントの自律持続時間は 7 ヶ月倍増ペースで拡大しており、「数時間タスク」が現在の実用フロンティアである。 Confidence: MODERATE METR データに基づく Matt Shumer の分析で、タスク完了能力が約 7 ヶ月ごとに倍増と示唆(shumer.dev, 4,000 万ビュー超)。GPT-5.3-Codex は 30 分自律実行を製品化(OpenAI)。ただし METR の制御実験では開発者が主観 +20% と感じたのに対し実測 -19% という生産性パラドックスが存在し(METR)、能力拡大と実効性の間にギャップが残る。 ベンチマークの信頼性が構造的に毀損しており、業界は「ポストベンチマーク時代」に入りつつある。 Confidence: HIGH SWE-rebench(月次新規タスク)でトップモデルが 55-58% に対し SWE-bench Verified では 80% と 20pt 以上乖離。arXiv 2602.04449 は「成功パッチの 32-33% に解答漏洩」を実証(arXiv)。Nathan Lambert は “benchmark-based release reactions barely matter” と断言(Interconnects)。実践者の head-to-head 評価が市場判断の主要指標になりつつある。