METR · AI Model Insights

AI コーディングエージェント評価手法: Intelligence Brief (Delta) 前回ブリーフィング (2026-02-12, scope: 2025-06 ~ 2026-02-12) は実践者の定性的評価手法に焦点を当てた。本デルタは、フォーマルなベンチマーク体系の構造的変化、新興評価フレームワーク、およびベンチマークと実世界性能のギャップに関する最新エビデンスを補完する。 Key Judgments ベンチマーク体系が「飽和→多層化→環境化」へ急速に再編されつつある — Confidence: HIGH — HumanEval は上位モデルで 95%+ に達し事実上飽和 (Statsig, 2025-10)。SWE-bench Verified も 76-81% (Verdent, 2026-02) に到達したことで、Scale AI が SWE-bench Pro (1,865 タスク、平均 107.4 行 / 4.1 ファイル変更) を投入し、トップモデルのスコアを 23-46% 帯に引き戻した (Scale AI, 2026-02)。同時に SWE-bench-Live MultiLang が C/C++/Rust/Go/Java/TS に拡張され (Microsoft, 2025-10)、Terminal-Bench 2.0 がターミナル操作の複合タスクを測定する (Laude Institute, 2025-05)。Snorkel AI は $3M の Open Benchmarks Grants を発表し、評価を「環境複雑性・自律性ホライズン・出力複雑性」の 3 軸で再定義しようとしている (Snorkel AI, 2026-02-11)。

エージェント時代の開発者ワークフロー: Intelligence Brief Key Judgments マルチエージェント並列開発は実用段階に到達した (confidence: high) – Anthropic Agent Teams、OpenAI Codex App、tmux + git worktree の 3 パターンが定着。Carlini の 16 並列 C コンパイラ構築（GCC torture test 99% パス）が技術的到達点を示す。ただし一般開発者環境での再現性は未検証。 AI の「ベンチマーク上の能力」と「実務生産性」は同義ではない (confidence: high) – METR のタスク完了時間は約 7 ヶ月で倍増しているが、同チームの RCT では熟練 OSS 開発者が AI 利用時に 19% 遅くなった。知覚（「速くなった」）と現実の乖離は構造的問題。完全自律開発は技術的に可能だが、信頼・責任フレームワークが追いついていない (confidence: high) – StrongDM Software Factory は人間がコードを書かない・レビューしない方針を実行中。Stanford Law が即座に責任帰属・保険引受の空白を指摘しており、法制度・契約面の整備が先行課題。 AI ツールの恩恵はシニアエンジニアに偏る構造がある (confidence: medium-high) – Osmani の分析と METR の RCT が示す通り、既存知識の深さが AI 出力の品質判断速度を決定する。ジュニアのスキル退化リスクは長期的な組織課題として顕在化しつつある。仕様駆動型アプローチが「vibe coding のアンチテーゼ」として台頭 (confidence: medium) – Amazon Kiro の Spec-driven Development は構造化された開発プロセスを強制する設計。ただし仕様作成自体がボトルネックになるリスクと、仕様-コード乖離の検出成熟度が課題。