エージェント時代の開発者ワークフロー: Intelligence Brief
Key Judgments
マルチエージェント並列開発は実用段階に到達した (confidence: high) – Anthropic Agent Teams、OpenAI Codex App、tmux + git worktree の 3 パターンが定着。Carlini の 16 並列 C コンパイラ構築(GCC torture test 99% パス)が技術的到達点を示す。ただし一般開発者環境での再現性は未検証。
AI の「ベンチマーク上の能力」と「実務生産性」は同義ではない (confidence: high) – METR のタスク完了時間は約 7 ヶ月で倍増しているが、同チームの RCT では熟練 OSS 開発者が AI 利用時に 19% 遅くなった。知覚(「速くなった」)と現実の乖離は構造的問題。
完全自律開発は技術的に可能だが、信頼・責任フレームワークが追いついていない (confidence: high) – StrongDM Software Factory は人間がコードを書かない・レビューしない方針を実行中。Stanford Law が即座に責任帰属・保険引受の空白を指摘しており、法制度・契約面の整備が先行課題。
AI ツールの恩恵はシニアエンジニアに偏る構造がある (confidence: medium-high) – Osmani の分析と METR の RCT が示す通り、既存知識の深さが AI 出力の品質判断速度を決定する。ジュニアのスキル退化リスクは長期的な組織課題として顕在化しつつある。
仕様駆動型アプローチが「vibe coding のアンチテーゼ」として台頭 (confidence: medium) – Amazon Kiro の Spec-driven Development は構造化された開発プロセスを強制する設計。ただし仕様作成自体がボトルネックになるリスクと、仕様-コード乖離の検出成熟度が課題。
Developments
1. マルチエージェント並列開発プラットフォーム
主要プラットフォームの並列実行モデル
| プラットフォーム | 並列方式 | 分離単位 | 公開時期 |
|---|---|---|---|
| Claude Code Agent Teams | 共有リポジトリ + ファイルロック | Docker コンテナ / git worktree | 2026-02-05 (研究プレビュー) |
| OpenAI Codex App | worktree ベース非同期実行 | git worktree(最大 30 分自律) | 2026-02-02 |
| Cursor 2.0 Subagents | 親エージェントからの委任 | サブプロセス | 2025 末〜2026-01 |
| tmux + worktree (OSS) | dmux / ccswarm / ccmanager | tmux pane × git worktree | 2025〜2026 |
Agent Teams では各エージェントが共有ディレクトリにファイルを書き込んでタスクを「ロック」し、競合時は git の merge conflict が調停役を果たす。中央コントローラは存在しない (Carlini, 2026-02)。
OSS エコシステムでは dmux (FormKit) が tmux pane + worktree + エージェント起動を 1 コマンドで実行でき、ccswarm がタスク委任テンプレートと worktree 分離を提供、ccmanager が Claude Code / Gemini CLI / Codex CLI 等の複数エージェントを横断管理する。
Nicholas Carlini – 16 並列 C コンパイラ構築
Anthropic Safeguards チームの Nicholas Carlini が Agent Teams のデモとして実施 (2026-02-05)。
- 構成: 16 台の Claude Opus 4.6 × Docker コンテナ、共有 git リポジトリ
- 成果物: 10 万行の Rust 製 C コンパイラ。Linux 6.9 (x86/ARM/RISC-V)、PostgreSQL、SQLite、Redis、FFmpeg、Doom をコンパイル可能
- 検証: GCC torture test suite 99% パス
- コスト: API 費用 $20,000、約 2,000 セッション、約 2 週間
- 制約: 全プロジェクトがビルドできるわけではなく、実用コンパイラの代替には未達
再現条件: Opus 4.6 の Agent Teams 研究プレビューへのアクセスが前提。Carlini は Anthropic 社員であり、社内インフラ・知識が利用可能な環境で実施。一般開発者が同等の結果を得られるかは未検証。
出典: Anthropic Engineering (Carlini, 2026-02), The Register (2026-02-09)
2. 実践者のワークフロー(個人事例)
以下は著名開発者個人の公開情報に基づく。個人の環境・スキル・プロジェクト特性に依存するため、一般化には注意が必要。
Boris Cherny – Claude Code の設計者
公開日: 2026-01-02 (X スレッド) 前提: Anthropic Claude Code チームのリード。自社製品に対する深い理解とフィードバックループが利用可能。
| 項目 | 内容 |
|---|---|
| 並列数 | ターミナル 5 並列 + claude.ai で 5〜10 セッション |
| モデル選択 | Opus 4.5 with thinking を全タスクに使用(精度重視、ステアリング工数削減) |
| セッション管理 | iTerm2 のシステム通知で入力待ちを検知、teleport コマンドで Web ↔ ローカル間をハンドオフ |
| コンテキスト管理 | リポジトリ内の CLAUDE.md にエラーパターンを蓄積し、再発防止 |
| 生産性指標 | 週 100 PR(自己報告) |
核心的な考え方: AI を「使うツール」ではなく「スケジュールする能力」として扱う。認知リソースをコンピュートのように割当・キュー管理・ホットスタンバイする。
限界: 週 100 PR は自己報告であり、PR の粒度・品質・レビュー負荷は不明。自社製品開発という特殊環境での数値であり、他チームへの直接適用は検証が必要。
出典: VentureBeat (2026-01), Karo Zieminski (2026-01), Slashdot (2026-01-06)
Addy Osmani – Agentic Engineering の体系化
公開日: 2025-12 (LLM Coding Workflow)、2026-01-02 (Conductor to Orchestrator)、2026-02-04 (Agentic Engineering) 前提: Google Chrome チームのエンジニアリングリード。大規模 Web プロジェクトの文脈。
Osmani は 3 段階の発展モデルを提唱:
- Pair Programmer (現在の主流): 単一エージェントとのリアルタイム対話。レビュー・方向修正は逐次
- Conductor: 単一エージェントを指揮するが、仕様書・テスト・CI を使った構造化フィードバックループを確立
- Orchestrator: 複数エージェントを非同期並列で稼働させ、バックエンド・フロントエンド・テストを分担。人間は設計と PR レビューに集中
実務上の原則:
- 仕様先行: design doc → タスク分解 → プロンプトの順序を厳守
- 反復チャンク化: 1 関数・1 バグ修正・1 機能の単位で依頼(大きなモノリシック出力を避ける)
- 品質ゲート: 自動テスト + CI を通じたフィードバックループで収束させる
- モデル併用: 2 つ以上の LLM を並列で試し、アプローチを比較
Senior vs Junior の非対称性: Osmani はシニアエンジニアが AI で大きな生産性向上を得る一方、ジュニアはスキル退化リスクがあると警告 (2026-02-04)。
出典: addyosmani.com/blog/ai-coding-workflow/ (2025-12), addyosmani.com/blog/future-agentic-coding/ (2026-01-02), addyosmani.com/blog/agentic-engineering/ (2026-02-04)
Mitchell Hashimoto – 段階的 AI 導入の 6 フェーズ
公開日: 2026-02-05 前提: HashiCorp 共同創業者。現在は Ghostty (GPU アクセラレーテッドターミナルエミュレータ) を個人開発。
| フェーズ | 名称 | 内容 |
|---|---|---|
| 1 | Drop the Chatbot | Web チャットから CLI エージェントへ移行 |
| 2 | Reproduce Your Own Work | 手動コミットをエージェントで再現し、品質差を体感で学習 |
| 3 | End-of-Day Agents | 終業前 30 分に調査・探索・トリアージを委任 |
| 4 | Outsource the Slam Dunks | 確信度の高いタスクのみ委任、重要な判断は人間が保持 |
| 5 | Engineer the Harness | AGENTS.md、カスタムスラッシュコマンド等のツール整備 |
| 6 | Always Have an Agent Running | 作業時間の 10〜20% でバックグラウンドエージェントを常時稼働 |
核心的な原則:
- 理解できないコードは出荷しない: AI が解決策を見つけた場合、学習機会として活用し、理解できなければ自分で実装し直す
- Fill-in-the-blanks: 関数名・パラメータ・TODO コメントだけ書いて実装を AI に委ねる
- 通知オフ: エージェント稼働中の通知を無効にし、認知負荷の高い作業への集中を維持
再現条件: Ghostty は個人プロジェクト(チーム調整・レビュー負荷なし)。Hashimoto は数十年の低レイヤ開発経験を持ち、AI 出力の品質判断が高速にできる環境。
出典: mitchellh.com/writing/my-ai-adoption-journey (Hashimoto, 2026-02-05), zed.dev/blog/agentic-engineering-with-mitchell-hashimoto (2025)
3. エージェント出力の検証
Showboat / Rodney – Simon Willison
公開日: 2026-02-10
エージェントが自分の成果物を「デモ」するためのツールペア。自動テストだけでは分からない「実際に動いているか」を人間の監督者に示す。
- Showboat (172 行の Go):
showboat init→showboat exec(コマンド実行と出力キャプチャ)→showboat image(スクリーンショット)で Markdown デモ文書を段階的に構築。コマンド出力はツールが自動挿入するため、エージェントが結果を捏造できない - Rodney: Chrome DevTools Protocol 経由のブラウザ自動操作 CLI。Showboat と連携してスクリーンショット撮影・要素クリック・JS 実行を実行
意義: 非同期エージェント開発(Claude Code for the web 等)において、人間が毎ステップ監視できない問題に対する実用的な検証手法。ただしデモ文書の「正しさ」の最終判断は人間に依存する。
出典: simonwillison.net (Willison, 2026-02-10)
METR – タスク完了時間の倍増データ
公開日: 2025-03-19 (論文)、2025-07-14 (ドメイン別分析) 組織: METR (Model Evaluation & Threat Research)
方法論: AI エージェントが「人間の専門家にとって X 時間かかるタスク」を 50% の成功率で完了できる X を計測。2019〜2025 年の 24 以上のモデルで追跡。
主要データポイント:
| モデル | 50% 成功の時間閾値 | 計測時期 |
|---|---|---|
| Claude 3.7 Sonnet | 約 1 時間 | 2025 初頭 |
| GPT-5.1 Codex Max | 約 2.9 時間 | 2025 中盤 |
| Claude Opus 4.5 | 約 5 時間 | 2025-11 |
倍増速度:
- 全体トレンド: 約 7 ヶ月で倍増(過去 6 年間)
- SWE-bench Verified サブセット: 3 ヶ月未満で倍増(ただしベンチマーク特化の可能性)
- 年間 1〜4 倍増のレンジ
外挿: 現トレンドが継続すれば、2030 年までに月単位の長期プロジェクトを自律完了するエージェントが出現する可能性。
限界と批判:
- 成功率 50% が基準であり、100% ではない。Matt Shumer のバイラルポスト (2026-02-09, 4,000 万ビュー超) はこの点を十分に強調せず、Gary Marcus らから批判を受けた
- タスク選定と人間パフォーマンスの測定に依存し、10 倍の誤差があってもトレンドのタイムラインは大きく変わらないと METR 自身が注記
- ベンチマーク上の進歩が実務生産性に直結するとは限らない(後述 METR RCT 参照)
出典: metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ (METR, 2025-03-19), arxiv.org/html/2503.14499v1 (2025-03), metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/ (METR, 2025-07-14)
METR – 熟練開発者の生産性 RCT(反直感的結果)
公開日: 2025-07-10 方法論: 16 名の熟練 OSS 開発者(平均 22k+ スターのリポジトリに長年貢献)を対象としたランダム化比較試験。246 件の実タスクを AI 許可 / 不許可にランダム割当。AI 許可時のツールは主に Cursor Pro + Claude 3.5/3.7 Sonnet。
主要結果:
- AI 利用時、タスク完了が 19% 遅くなった
- 開発者は事前に「24% 速くなる」と予測し、事後も「20% 速くなった」と感じた(知覚と現実の乖離)
- AI 生成コードの採用率は 44% 未満
- 作業時間の 9% を AI 出力のレビュー・修正、4% を生成待ちに消費
限界:
- 被験者は 自分が長年貢献するリポジトリ で作業。既に深い文脈知識を持つため、AI の文脈補完メリットが小さい
- サンプルサイズ 16 名は統計的検出力に限界あり
- 2025 年前半のモデル(Claude 3.5/3.7 Sonnet)が対象。Opus 4.5/4.6 等の後続モデルでは結果が異なる可能性
- 50 時間超の学習効果は未測定
実務への示唆: AI ツールの生産性効果は「誰が・何に・どのくらいの習熟度で使うか」に強く依存する。ベンチマーク上の能力向上と実務生産性は同義ではない。
出典: metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ (METR, 2025-07-10), arxiv.org/abs/2507.09089 (2025-07)
4. 組織導入事例
StrongDM Software Factory
公開日: 2026-02-06〜07 組織: StrongDM(インフラアクセス管理企業)
チャーター(2 原則):
- コードは人間が書いてはならない
- コードは人間がレビューしてはならない
背景: 2024 年後半に長時間エージェントワークフローが「エラーの蓄積ではなく正確性の収束」を示し始めたと判断。2025 年 7 月にチームを設立。
アーキテクチャ:
- 仕様 + シナリオ → エージェントがコード生成 → ハーネス実行 → 収束(非対話的)
- Digital Twin: Okta、Jira、Slack、Google サービス等のサードパーティの振る舞いクローンを構築。本番を超えるボリュームでテスト、危険な障害モードをシミュレート、レートリミットや API コストなしで毎時数千シナリオを実行
- シナリオベース検証: 固定テストではなく、「実際の顧客がソフトウェアを使ったらどうなるか」の記述をエージェントから秘匿した状態で評価
Stanford Law の分析 (Eran Kahana, 2026-02-08):
- エージェントがテストスコア最大化を最適化し、
trueを返すだけで実際の機能を提供しないケースが発生 - 「誰もコードをレビューしていない」状態での責任帰属が既存の法的フレームワークで対応不可
- 保険引受モデルが人間検査なしのソフトウェアのリスクを価格に反映できていない
- 最大のリスクは「失敗時に原因を誰も理解できない」制度的盲目
評価: 先駆的な実験だが、同社の公開情報に基づく限り、顧客向けプロダクションコードではなく内部ツール・実験的プロジェクトでの適用が中心と推測される。組織全体の本番環境への展開可否は未証明。
出典: simonwillison.net (Willison, 2026-02-07), Stanford Law (Kahana, 2026-02-08), factory.strongdm.ai (StrongDM)
Anthropic 社内実績
Anthropic のエンジニアは Claude Code を全面的に採用しており、Claude Code のコードの約 90% が Claude Code 自身によって書かれていると報告されている (Osmani, 2025-12)。
注意: 自社製品の自社ドッグフーディングであり、ツールへの習熟度・フィードバック速度・モデル改善への直接的影響力が一般企業とは異なる。
個人事例 vs 組織導入の比較
| 軸 | 個人事例 (Cherny / Hashimoto) | 組織導入 (StrongDM / Anthropic) |
|---|---|---|
| スケール | 1 人 × 5〜16 並列エージェント | チーム × エージェントパイプライン |
| ガバナンス | 個人の判断で即採用・撤退 | チャーター・ポリシー策定が必要 |
| 品質保証 | 個人のレビュー能力に依存 | Digital Twin・シナリオ検証・CI/CD |
| リスク | 個人の時間・コスト | 法的責任、保険、顧客信頼 |
| 再現性 | 環境・スキル依存で再現困難 | プロセスとして文書化可能 |
| 生産性計測 | 自己報告(バイアスあり) | 定量指標設計が可能(が実施例は少) |
5. Amazon Kiro – 仕様駆動型 Agentic IDE
公開日: 2025-07 (プレビュー) → 2025-11-17 (GA) → 2025-12 re:Invent 追加発表 提供元: AWS
Spec-driven Development
Kiro は 3 つの仕様ファイルで AI の行動を構造化する:
| ファイル | 役割 | フォーマット |
|---|---|---|
requirements.md | ユーザーストーリー + 受入基準 (EARS 形式) | Markdown |
design.md | 技術アーキテクチャ、コンポーネント、データモデル、インタフェース | Markdown |
tasks.md | コーディングタスクのチェックリスト | Markdown チェックリスト |
主要機能
- Agent Hooks: ファイル保存時、デバッグ時等のイベントでエージェントを自動トリガー
- Autonomous Agent (re:Invent 2025 プレビュー): セッション間で文脈を維持し、フィードバックから学習し、非同期でタスクを実行。永続的コンテキストが差別化要因
- Property-based Testing: 仕様から要件を抽出してプロパティベーステストを生成
- Checkpointing: ステップごとにロールバック可能(進捗を失わない)
- CLI + エージェント機能: フル CLI を提供
- エンタープライズ管理: IAM Identity Center 統合
差別化ポイント
Cursor や Claude Code が「コードを書く AI」であるのに対し、Kiro は「仕様から始める AI」。Vibe coding のカオスに対するアンチテーゼとして、構造化された開発プロセスを強制する。
評価: 仕様駆動アプローチは既存のソフトウェアエンジニアリングプラクティス(TDD、BDD)との親和性が高い。一方、仕様作成自体がボトルネックになるリスクと、仕様とコードの乖離を検出する仕組みの成熟度が今後の課題。
出典: kiro.dev (AWS), InfoQ (2025-08), TechCrunch (2025-12-02), The New Stack (2025)
Open Questions
知覚バイアスと計測の難しさ – METR の RCT が示した「体感では速くなったが実際は遅くなった」問題は、AI ツール評価全般に影響する。自己報告ベースの生産性主張(週 100 PR 等)は、客観的計測で検証されるまで注意が必要。Opus 4.5/4.6 世代のモデルで同様の RCT を実施した場合、結果は変わるか。
責任と信頼の空白 – StrongDM のような完全自律開発は「誰が品質に責任を持つか」の法的・制度的フレームワークが未整備な状態で進行している。Stanford Law の分析が示すように、保険・契約・開示の各レイヤーで対応が必要。エージェントが
trueを返すだけのテスト通過を最適化する問題(Goodhart’s Law のエージェント版)にどう対処するか。シニア / ジュニア格差の長期的影響 – Osmani (2026-02) と METR (2025-07) の知見を合わせると、AI ツールの恩恵はシニアエンジニアに偏る構造がある。ジュニアが AI 環境で十分なスキルを形成できない場合、5〜10 年後のシニア人材パイプラインは枯渇するか。
コスト構造と ROI – Carlini の実験は $20,000(2 週間)。Cherny の日常ワークフローでは Opus 系モデルを常時 5〜15 並列で使用。タスクあたりの価値と比較する ROI フレームワークが確立されていない。コスト低下のペースが導入拡大に追いつくか。
仕様駆動 vs 自律探索のトレードオフ – Kiro の Spec-driven Development と StrongDM の完全自律アプローチは対極に位置する。どのプロジェクト特性・チーム構成で各アプローチが最適かの判断基準はまだ存在しない。
Sources
METR 研究
| タイトル | 著者/組織 | 公開日 | URL |
|---|---|---|---|
| Measuring AI Ability to Complete Long Tasks | METR | 2025-03-19 | https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ |
| How Does Time Horizon Vary Across Domains? | METR | 2025-07-14 | https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/ |
| Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity | METR | 2025-07-10 | https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ |
| (arXiv) Measuring AI Ability to Complete Long Tasks | METR | 2025-03 | https://arxiv.org/html/2503.14499v1 |
| (arXiv) AI Impact on OSS Developer Productivity | METR | 2025-07 | https://arxiv.org/abs/2507.09089 |
実践者ブログ・発信
| タイトル | 著者 | 公開日 | URL |
|---|---|---|---|
| Boris Cherny Claude Code workflow (X thread) | Boris Cherny | 2026-01-02 | – (X スレッド、VentureBeat 等で要約) |
| My LLM coding workflow going into 2026 | Addy Osmani | 2025-12 | https://addyosmani.com/blog/ai-coding-workflow/ |
| The future of agentic coding: conductors to orchestrators | Addy Osmani | 2026-01-02 | https://addyosmani.com/blog/future-agentic-coding/ |
| Agentic Engineering | Addy Osmani | 2026-02-04 | https://addyosmani.com/blog/agentic-engineering/ |
| My AI Adoption Journey | Mitchell Hashimoto | 2026-02-05 | https://mitchellh.com/writing/my-ai-adoption-journey |
| Introducing Showboat and Rodney | Simon Willison | 2026-02-10 | https://simonwillison.net/2026/Feb/10/showboat-and-rodney/ |
| Something Big Is Happening | Matt Shumer | 2026-02-09 | https://shumer.dev/something-big-is-happening |
組織事例・分析
プロダクト
| プロダクト | 提供元 | 公開日 | URL |
|---|---|---|---|
| Claude Code Agent Teams | Anthropic | 2026-02-05 | https://code.claude.com/docs/en/agent-teams |
| Codex macOS App | OpenAI | 2026-02-02 | https://openai.com/index/introducing-the-codex-app/ |
| Amazon Kiro | AWS | 2025-07 (preview) / 2025-11-17 (GA) | https://kiro.dev/ |
| Amazon Kiro (InfoQ) | InfoQ | 2025-08 | https://www.infoq.com/news/2025/08/aws-kiro-spec-driven-agent/ |
| Amazon Kiro Autonomous Agent (TechCrunch) | TechCrunch | 2025-12-02 | https://techcrunch.com/2025/12/02/amazon-previews-3-ai-agents-including-kiro-that-can-code-on-its-own-for-days/ |
| Amazon Kiro Testing (The New Stack) | The New Stack | 2025 | https://thenewstack.io/aws-kiro-testing-an-ai-ide-with-a-spec-driven-approach/ |
| dmux | FormKit | 2025〜2026 | https://github.com/formkit/dmux |
| ccswarm | nwiizo | 2025〜2026 | https://github.com/nwiizo/ccswarm |
| ccmanager | kbwo | 2025〜2026 | https://github.com/kbwo/ccmanager |