Evaluation

AI コーディングエージェント評価手法: Intelligence Brief (Delta) 前回ブリーフィング (2026-02-12, scope: 2025-06 ~ 2026-02-12) は実践者の定性的評価手法に焦点を当てた。本デルタは、フォーマルなベンチマーク体系の構造的変化、新興評価フレームワーク、およびベンチマークと実世界性能のギャップに関する最新エビデンスを補完する。 Key Judgments ベンチマーク体系が「飽和→多層化→環境化」へ急速に再編されつつある — Confidence: HIGH — HumanEval は上位モデルで 95%+ に達し事実上飽和 (Statsig, 2025-10)。SWE-bench Verified も 76-81% (Verdent, 2026-02) に到達したことで、Scale AI が SWE-bench Pro (1,865 タスク、平均 107.4 行 / 4.1 ファイル変更) を投入し、トップモデルのスコアを 23-46% 帯に引き戻した (Scale AI, 2026-02)。同時に SWE-bench-Live MultiLang が C/C++/Rust/Go/Java/TS に拡張され (Microsoft, 2025-10)、Terminal-Bench 2.0 がターミナル操作の複合タスクを測定する (Laude Institute, 2025-05)。Snorkel AI は $3M の Open Benchmarks Grants を発表し、評価を「環境複雑性・自律性ホライズン・出力複雑性」の 3 軸で再定義しようとしている (Snorkel AI, 2026-02-11)。