AI コーディングエージェント評価手法

AI コーディングエージェント評価手法: Intelligence Brief (Delta)

前回ブリーフィング (2026-02-12, scope: 2025-06 ~ 2026-02-12) は実践者の定性的評価手法に焦点を当てた。本デルタは、フォーマルなベンチマーク体系の構造的変化、新興評価フレームワーク、およびベンチマークと実世界性能のギャップに関する最新エビデンスを補完する。

Key Judgments

ベンチマーク体系が「飽和→多層化→環境化」へ急速に再編されつつある — Confidence: HIGH — HumanEval は上位モデルで 95%+ に達し事実上飽和 (Statsig, 2025-10)。SWE-bench Verified も 76-81% (Verdent, 2026-02) に到達したことで、Scale AI が SWE-bench Pro (1,865 タスク、平均 107.4 行 / 4.1 ファイル変更) を投入し、トップモデルのスコアを 23-46% 帯に引き戻した (Scale AI, 2026-02)。同時に SWE-bench-Live MultiLang が C/C++/Rust/Go/Java/TS に拡張され (Microsoft, 2025-10)、Terminal-Bench 2.0 がターミナル操作の複合タスクを測定する (Laude Institute, 2025-05)。Snorkel AI は $3M の Open Benchmarks Grants を発表し、評価を「環境複雑性・自律性ホライズン・出力複雑性」の 3 軸で再定義しようとしている (Snorkel AI, 2026-02-11)。
ベンチマークスコアと実世界生産性の乖離が RCT で実証され、評価の信頼性危機が顕在化している — Confidence: HIGH — METR の RCT (16 名の熟練開発者、246 タスク) は、AI ツール使用時に完了時間が 19% 増加することを示した。開発者自身は 20% 高速化を体感しており、知覚と実測の 39 ポイントのギャップが存在する (METR, 2025-07-10)。MIT Technology Review (Caiwei Chen, 2025-07-02) はベンチマークの 3 大問題としてゲーミング、データ汚染、天井効果を指摘し、「従来のスコアリングはもはや測定したいものを反映していない」と断じている。
METR Time Horizons が「ベンチマークスコア」に代わるマクロ能力指標として注目を集めている — Confidence: MODERATE — METR の Task-Completion Time Horizons (最終更新: 2026-02-06) によると、GPT-5.2 の 50% 成功ホライズンは 394.4 時間、Claude Opus 4.5 は 320.4 時間に達し、フロンティアモデルの能力は約 7 ヶ月ごとに倍増している (METR, 2026-01-29)。X 上でもこのグラフが広く議論され (Kris Gulati, @krisgulati, 2026-02-09, 84 likes; Charles Foster, @CFGeek, 2026-02-09, 104 likes)、MIT Technology Review は “the most misunderstood graph in AI” と題した解説記事を掲載した (2026-02-05)。ただし METR 自身がタスク分布の偏り (ソフトウェア・ML・サイバーセキュリティ中心) と 16 名規模のベースライン制約を認めている。
コードレビュー評価が独自のベンチマーク競争領域として急成長している — Confidence: MODERATE — Qodo が 100 PR・580 件の注入欠陥 (7 言語) による Code Review Benchmark 1.0 を公開し、F1 スコア 60.1% を達成 (Qodo, 2026-02-04)。Greptile は 50 件の実 PR で 82% のバグ検出率を報告 (Greptile, 2025-07)。ただし両者とも自社製品が最高スコアとなっており、第三者による独立検証は未実施である。
「Arena 型」の人間参加型評価が、静的ベンチマークの代替として台頭しつつある — Confidence: LOW — LMArena の Code Arena はモデルにアプリケーション全体の構築を要求し (LMArena, ~2025-11)、Design Arena はユーザー投票による Elo レーティングでデザイン生成能力を評価する (Design Arena, 2026-02-10)。Windsurf は IDE 内 Arena Mode を導入し、開発者の実コンテキストでのモデル比較を可能にした (Windsurf, 2026-02)。ただしスケーラビリティと評価の一貫性は未検証。

Developments

SWE-bench の多層化と分裂

SWE-bench エコシステムは 2025-2026 にかけて急速に分化している。オリジナルの SWE-bench Verified は Verdent が 76.1% pass@1 / 81.2% pass@3 を達成し (Verdent, 2026-02)、差別化能力を失いつつある。これに対し Scale AI は SWE-bench Pro を投入した。Pro は 41 のプロフェッショナルリポジトリ (GPL ライセンス・プロプライエタリコードベース含む) から 1,865 タスクを収集し、パッチの平均規模は 107.4 行 / 4.1 ファイル (Scale AI, 2026-02)。Public データセットでは Claude Opus 4.5 が 45.89% でトップ、Private データセットでは Claude Opus 4.1 が 17.8%、GPT-5 が 14.9% と大幅に低下し、未知のコードベースへの汎化能力の不足が露呈した。

並行して SWE-bench-Live は月次 50 件追加の動的更新モデルを採用し、MultiLang 拡張で Python 以外の 7 言語をサポートした (Microsoft, NeurIPS 2025 D&B)。ByteDance の Multi-SWE-bench は 7 言語・1,632 インスタンスで、言語別解決率の差異 (Rust が最高、C/C++ が最低) を明らかにしている (ByteDance, 2025-04)。

日本では JAPAN AI が SWE-bench Verified で解決率 80.2% を達成し、国産 AI エージェント技術として世界最高水準を主張している (JAPAN AI, 2026-02-06)。

HumanEval の事実上の引退と後継ベンチマーク

HumanEval は概念分布の偏り (5 つの概念が 72.1% を占有、Tree/Graph/Backtracking 等 14 概念がゼロ)、難易度の偏り (Easy 84.8%、Hard 0.6%)、単一関数スコープの限界により、上位モデルでは 95%+ を達成し評価基準としての有用性を喪失した (EmergentMind, ~2025)。後継として BigCodeBench (ICLR 2025) が 139 ライブラリ・7 ドメイン・1,140 タスクを提供し、トップモデルでも ~60% にとどまっている (BigCodeBench, 2024-06)。LiveCodeBench Pro は国際アルゴリズムオリンピアドから出題し、中難度で 53%、最高難度で 0% という結果を報告している (MIT Tech Review JP, 2025-07-02)。

METR Time Horizons: 新しいマクロ能力指標

METR の Task-Completion Time Horizons は、特定のベンチマークスコアではなく「人間の専門家が完了するのに要する時間」をスケールとしてモデル能力を測定するアプローチであり、2026 年初頭に大きな注目を集めている。Time Horizon 1.1 (2026-01-29 リリース) では RE-Bench、HCAST、新規ソフトウェアタスクから構成されるタスクセットを使用し、50% と 80% の成功確率閾値でモデルを評価する。

最新データ (2026-02-06 更新) で GPT-5.2 が 50% ホライズン 394.4 時間を記録し、これは約 2 週間の人間作業に相当する。ベースラインの人間評価者はソフトウェアエンジニアリング・ML・サイバーセキュリティの専門家で、平均約 5 年の経験を持つ。X 上では @slow_developer (Haider, 2026-02-09, 166 likes) が「METR の以前の推定は 7 ヶ月だったが、現在は 4-5 ヶ月に近づいている」と投稿し、能力倍増の加速を指摘している。

ベンチマークと実世界のギャップ: METR RCT の衝撃

METR の RCT は評価方法論に根本的な疑問を投げかけた。16 名の経験豊富な OSS 開発者 (平均 5 年以上のリポジトリ経験、時給 $150) が 246 のタスクをランダムに AI 許可/不許可条件で実行した結果、AI ツール (主に Cursor Pro + Claude 3.5/3.7 Sonnet) 使用時に 19% の遅延が発生した (METR, 2025-07-10)。

この結果は、開発者の事前予測 (24% 高速化) および事後評価 (20% 高速化) と著しく乖離しており、“Developers thought they were 20% faster with AI tools, but they were actually 19% slower” という知見は AI 評価コミュニティに衝撃を与えた。ただし METR 自身は、この結果が「熟練した開発者が馴染みのあるコードベースで作業する」特定の設定に限定され、開発者の Cursor 経験が ~50 時間にとどまる点を制約として認めている。

コードレビュー評価の競争激化

コードレビューの AI 評価は 2025-2026 にかけて独自のベンチマーク競争領域となった。Qodo の Code Review Benchmark 1.0 (2026-02-04) は 100 PR から 580 件の欠陥 (コンプライアンス違反 + 機能バグ: 論理エラー、エッジケース失敗、レースコンディション、リソースリーク) を注入し、Precision/Recall/F1 で評価した。Qodo 2.0 は F1 60.1%、Recall 56.7% で最高を記録。

Greptile のベンチマーク (2025-07) は 5 リポジトリ・50 PR・5 言語で、Greptile 82%、Cursor 58%、Copilot 54%、CodeRabbit 44%、Graphite 6% の検出率を報告。一方 AI Multiple の独立評価 (2026) では CodeRabbit が人間評価・LLM-as-Judge 双方でトップとなり、ベンチマーク設計者バイアスの問題を浮き彫りにしている。

Arena 型・環境埋め込み型評価の萌芽

静的ベンチマークの限界に対する応答として、Arena 型評価が出現している。LMArena の Code Arena (~2025-11) はモデルに完全なアプリケーション構築を要求し、計画・スキャフォールド・反復・改善のプロセス全体を評価する。Design Arena (2026-02-10) はユーザー投票による Elo レーティングを採用し、50+ LLM モデルのデザイン生成能力を比較する。

Windsurf の IDE 内 Arena Mode (2026-02) は開発者が自身の実コンテキストでモデルを並列比較できるアプローチであり、評価を開発者のワークフロー内に埋め込む方向性を示している。Snorkel AI の Open Benchmarks Grants ($3M、Hugging Face・PyTorch 等と連携、2026-03-01 より応募受付) は「環境複雑性・自律性ホライズン・出力複雑性」の 3 軸を提示し、ベンチマーク設計そのものを組織的に再構築する試みである (Snorkel AI / Vincent Sunn Chen, 2026-02-11)。

ターミナル・エージェント評価の進化

Terminal-Bench 2.0 (Laude Institute + Stanford, 2025-05~) は、サンドボックス化されたコマンドライン環境でのマルチステップワークフロー (コンパイル、環境構成、ツール実行、ファイルシステムナビゲーション) を評価する。最新リーダーボード (2026-02 時点) では GPT-5.3-Codex が 75.1%、Claude Opus 4.6 が 69.9%。Sierra の τ-bench は Tool-Agent-User インタラクションを評価し、pass^k メトリック (複数回実行での一貫性) を提案している (Sierra, 2024-06)。τ²-bench はこれをデュアルコントロール環境 (ユーザーも AI がシミュレート) に拡張した。

Open Questions

METR RCT の再現性: 16 名のサンプルサイズ、Cursor + Claude 3.5/3.7 Sonnet という特定ツールセットでの結果は、より大規模な RCT や新しいモデル (GPT-5.x, Claude 4.x) で再現されるか。学習効果 (~50 時間の AI 経験) がどの程度結果に影響しているか。（前回指摘の「RLVR 耐性のある評価」は SWE-bench Pro の Private データセット等で部分的に対処されつつあるが、根本的解決には至っていない）
コードレビューベンチマークの独立性: Qodo と Greptile がそれぞれ自社ベンチマークで自社製品を最高と報告している。第三者による統一ベンチマークは成立するか。注入欠陥ベースの方法論は自然発生バグの検出能力をどの程度代理するか。
Time Horizons の予測力: METR の Time Horizons が示す能力倍増トレンド（~7 ヶ月、加速の兆候あり）は、実世界のソフトウェア開発生産性向上にどの程度翻訳されるか。RCT が示す「ベンチマーク能力向上 ≠ 実生産性向上」との関係をどう整合させるか。
Arena 型評価のスケーラビリティ: Code Arena / Design Arena / Windsurf Arena のユーザー投票型評価は、ベンチマーク再現性と統計的厳密性をどの程度確保できるか。
設計判断の質の定量化 (前回から継続): SWE-bench Pro やコードレビューベンチマークは「解決率」や「バグ検出率」を測定するが、Karpathy が指摘する “taste” — 設計の質や過剰防御的コーディングの検出 — は依然として標準化された評価手法が存在しない。

Sources

ベンチマーク・リーダーボード

Scale AI: SWE-Bench Pro Public Dataset / Private Dataset, Scale AI, 2026-02
Verdent: SWE-bench Verified Technical Report, 2026-02
Microsoft: SWE-bench-Live (NeurIPS 2025 D&B), 2025-10
ByteDance: Multi-SWE-bench, 2025-04
BigCodeBench: ICLR 2025, 2024-06
Terminal-Bench: Leaderboard 2.0, Laude Institute, 2025-05~
JAPAN AI: SWE-bench Verified 80.2%, 2026-02-06

評価方法論・研究

METR: AI Developer Productivity RCT, 2025-07-10
METR: Task-Completion Time Horizons, 最終更新 2026-02-06
METR: Time Horizon 1.1, 2026-01-29
MIT Technology Review: “The most misunderstood graph in AI”, 2026-02-05
MIT Tech Review JP: AIベンチマークはもはや限界, Caiwei Chen, 2025-07-02
Snorkel AI: Closing the Evaluation Gap in Agentic AI, Vincent Sunn Chen, 2026-02-11
Snorkel AI: Open Benchmarks Grants, 2026-03-01 応募開始
Sierra: τ-bench / τ²-bench, 2024-06 / 2025

コードレビュー評価

Qodo: How Qodo Built a Real-World Benchmark for AI Code Review, 2026-02-04
Greptile: AI Code Review Benchmarks 2025, 2025-07

Arena 型評価

LMArena: Code Arena, ~2025-11
Design Arena: Mobile Arena, @Designarena, X, 2026-02-10
Windsurf: Arena Mode, InfoQ, 2026-02

HumanEval 限界

EmergentMind: HumanEval Coding Benchmark Review, ~2025
HuggingFace: BigCodeBench: The Next Generation of HumanEval, 2024-06
Statsig: HumanEval: Code generation benchmarks, ~2025

X (Twitter)

Kris Gulati (@krisgulati): METR Time Horizon グラフ, 2026-02-09, 84 likes
Haider (@slow_developer): METR 能力倍増の加速指摘, 2026-02-09, 166 likes
Charles Foster (@CFGeek): METR Time Horizons FAQ, 2026-02-09, 104 likes
METR (@METR_Evals): Time Horizons standalone page 告知, 2026-02-07