メインコンテンツへスキップ

エージェント時代の開発者ワークフロー変革

目次

エージェント時代の開発者ワークフロー: Intelligence Brief

Key Judgments

  1. マルチエージェント並列開発は実用段階に到達した (confidence: high) – Anthropic Agent Teams、OpenAI Codex App、tmux + git worktree の 3 パターンが定着。Carlini の 16 並列 C コンパイラ構築(GCC torture test 99% パス)が技術的到達点を示す。ただし一般開発者環境での再現性は未検証。

  2. AI の「ベンチマーク上の能力」と「実務生産性」は同義ではない (confidence: high) – METR のタスク完了時間は約 7 ヶ月で倍増しているが、同チームの RCT では熟練 OSS 開発者が AI 利用時に 19% 遅くなった。知覚(「速くなった」)と現実の乖離は構造的問題。

  3. 完全自律開発は技術的に可能だが、信頼・責任フレームワークが追いついていない (confidence: high) – StrongDM Software Factory は人間がコードを書かない・レビューしない方針を実行中。Stanford Law が即座に責任帰属・保険引受の空白を指摘しており、法制度・契約面の整備が先行課題。

  4. AI ツールの恩恵はシニアエンジニアに偏る構造がある (confidence: medium-high) – Osmani の分析と METR の RCT が示す通り、既存知識の深さが AI 出力の品質判断速度を決定する。ジュニアのスキル退化リスクは長期的な組織課題として顕在化しつつある。

  5. 仕様駆動型アプローチが「vibe coding のアンチテーゼ」として台頭 (confidence: medium) – Amazon Kiro の Spec-driven Development は構造化された開発プロセスを強制する設計。ただし仕様作成自体がボトルネックになるリスクと、仕様-コード乖離の検出成熟度が課題。


Developments

1. マルチエージェント並列開発プラットフォーム

主要プラットフォームの並列実行モデル
プラットフォーム並列方式分離単位公開時期
Claude Code Agent Teams共有リポジトリ + ファイルロックDocker コンテナ / git worktree2026-02-05 (研究プレビュー)
OpenAI Codex Appworktree ベース非同期実行git worktree(最大 30 分自律)2026-02-02
Cursor 2.0 Subagents親エージェントからの委任サブプロセス2025 末〜2026-01
tmux + worktree (OSS)dmux / ccswarm / ccmanagertmux pane × git worktree2025〜2026

Agent Teams では各エージェントが共有ディレクトリにファイルを書き込んでタスクを「ロック」し、競合時は git の merge conflict が調停役を果たす。中央コントローラは存在しない (Carlini, 2026-02)。

OSS エコシステムでは dmux (FormKit) が tmux pane + worktree + エージェント起動を 1 コマンドで実行でき、ccswarm がタスク委任テンプレートと worktree 分離を提供、ccmanager が Claude Code / Gemini CLI / Codex CLI 等の複数エージェントを横断管理する。

Nicholas Carlini – 16 並列 C コンパイラ構築

Anthropic Safeguards チームの Nicholas Carlini が Agent Teams のデモとして実施 (2026-02-05)。

  • 構成: 16 台の Claude Opus 4.6 × Docker コンテナ、共有 git リポジトリ
  • 成果物: 10 万行の Rust 製 C コンパイラ。Linux 6.9 (x86/ARM/RISC-V)、PostgreSQL、SQLite、Redis、FFmpeg、Doom をコンパイル可能
  • 検証: GCC torture test suite 99% パス
  • コスト: API 費用 $20,000、約 2,000 セッション、約 2 週間
  • 制約: 全プロジェクトがビルドできるわけではなく、実用コンパイラの代替には未達

再現条件: Opus 4.6 の Agent Teams 研究プレビューへのアクセスが前提。Carlini は Anthropic 社員であり、社内インフラ・知識が利用可能な環境で実施。一般開発者が同等の結果を得られるかは未検証。

出典: Anthropic Engineering (Carlini, 2026-02), The Register (2026-02-09)


2. 実践者のワークフロー(個人事例)

以下は著名開発者個人の公開情報に基づく。個人の環境・スキル・プロジェクト特性に依存するため、一般化には注意が必要。

Boris Cherny – Claude Code の設計者

公開日: 2026-01-02 (X スレッド) 前提: Anthropic Claude Code チームのリード。自社製品に対する深い理解とフィードバックループが利用可能。

項目内容
並列数ターミナル 5 並列 + claude.ai で 5〜10 セッション
モデル選択Opus 4.5 with thinking を全タスクに使用(精度重視、ステアリング工数削減)
セッション管理iTerm2 のシステム通知で入力待ちを検知、teleport コマンドで Web ↔ ローカル間をハンドオフ
コンテキスト管理リポジトリ内の CLAUDE.md にエラーパターンを蓄積し、再発防止
生産性指標週 100 PR(自己報告)

核心的な考え方: AI を「使うツール」ではなく「スケジュールする能力」として扱う。認知リソースをコンピュートのように割当・キュー管理・ホットスタンバイする。

限界: 週 100 PR は自己報告であり、PR の粒度・品質・レビュー負荷は不明。自社製品開発という特殊環境での数値であり、他チームへの直接適用は検証が必要。

出典: VentureBeat (2026-01), Karo Zieminski (2026-01), Slashdot (2026-01-06)

Addy Osmani – Agentic Engineering の体系化

公開日: 2025-12 (LLM Coding Workflow)、2026-01-02 (Conductor to Orchestrator)、2026-02-04 (Agentic Engineering) 前提: Google Chrome チームのエンジニアリングリード。大規模 Web プロジェクトの文脈。

Osmani は 3 段階の発展モデルを提唱:

  1. Pair Programmer (現在の主流): 単一エージェントとのリアルタイム対話。レビュー・方向修正は逐次
  2. Conductor: 単一エージェントを指揮するが、仕様書・テスト・CI を使った構造化フィードバックループを確立
  3. Orchestrator: 複数エージェントを非同期並列で稼働させ、バックエンド・フロントエンド・テストを分担。人間は設計と PR レビューに集中

実務上の原則:

  • 仕様先行: design doc → タスク分解 → プロンプトの順序を厳守
  • 反復チャンク化: 1 関数・1 バグ修正・1 機能の単位で依頼(大きなモノリシック出力を避ける)
  • 品質ゲート: 自動テスト + CI を通じたフィードバックループで収束させる
  • モデル併用: 2 つ以上の LLM を並列で試し、アプローチを比較

Senior vs Junior の非対称性: Osmani はシニアエンジニアが AI で大きな生産性向上を得る一方、ジュニアはスキル退化リスクがあると警告 (2026-02-04)。

出典: addyosmani.com/blog/ai-coding-workflow/ (2025-12), addyosmani.com/blog/future-agentic-coding/ (2026-01-02), addyosmani.com/blog/agentic-engineering/ (2026-02-04)

Mitchell Hashimoto – 段階的 AI 導入の 6 フェーズ

公開日: 2026-02-05 前提: HashiCorp 共同創業者。現在は Ghostty (GPU アクセラレーテッドターミナルエミュレータ) を個人開発。

フェーズ名称内容
1Drop the ChatbotWeb チャットから CLI エージェントへ移行
2Reproduce Your Own Work手動コミットをエージェントで再現し、品質差を体感で学習
3End-of-Day Agents終業前 30 分に調査・探索・トリアージを委任
4Outsource the Slam Dunks確信度の高いタスクのみ委任、重要な判断は人間が保持
5Engineer the HarnessAGENTS.md、カスタムスラッシュコマンド等のツール整備
6Always Have an Agent Running作業時間の 10〜20% でバックグラウンドエージェントを常時稼働

核心的な原則:

  • 理解できないコードは出荷しない: AI が解決策を見つけた場合、学習機会として活用し、理解できなければ自分で実装し直す
  • Fill-in-the-blanks: 関数名・パラメータ・TODO コメントだけ書いて実装を AI に委ねる
  • 通知オフ: エージェント稼働中の通知を無効にし、認知負荷の高い作業への集中を維持

再現条件: Ghostty は個人プロジェクト(チーム調整・レビュー負荷なし)。Hashimoto は数十年の低レイヤ開発経験を持ち、AI 出力の品質判断が高速にできる環境。

出典: mitchellh.com/writing/my-ai-adoption-journey (Hashimoto, 2026-02-05), zed.dev/blog/agentic-engineering-with-mitchell-hashimoto (2025)


3. エージェント出力の検証

Showboat / Rodney – Simon Willison

公開日: 2026-02-10

エージェントが自分の成果物を「デモ」するためのツールペア。自動テストだけでは分からない「実際に動いているか」を人間の監督者に示す。

  • Showboat (172 行の Go): showboat initshowboat exec(コマンド実行と出力キャプチャ)→ showboat image(スクリーンショット)で Markdown デモ文書を段階的に構築。コマンド出力はツールが自動挿入するため、エージェントが結果を捏造できない
  • Rodney: Chrome DevTools Protocol 経由のブラウザ自動操作 CLI。Showboat と連携してスクリーンショット撮影・要素クリック・JS 実行を実行

意義: 非同期エージェント開発(Claude Code for the web 等)において、人間が毎ステップ監視できない問題に対する実用的な検証手法。ただしデモ文書の「正しさ」の最終判断は人間に依存する。

出典: simonwillison.net (Willison, 2026-02-10)

METR – タスク完了時間の倍増データ

公開日: 2025-03-19 (論文)、2025-07-14 (ドメイン別分析) 組織: METR (Model Evaluation & Threat Research)

方法論: AI エージェントが「人間の専門家にとって X 時間かかるタスク」を 50% の成功率で完了できる X を計測。2019〜2025 年の 24 以上のモデルで追跡。

主要データポイント:

モデル50% 成功の時間閾値計測時期
Claude 3.7 Sonnet約 1 時間2025 初頭
GPT-5.1 Codex Max約 2.9 時間2025 中盤
Claude Opus 4.5約 5 時間2025-11

倍増速度:

  • 全体トレンド: 約 7 ヶ月で倍増(過去 6 年間)
  • SWE-bench Verified サブセット: 3 ヶ月未満で倍増(ただしベンチマーク特化の可能性)
  • 年間 1〜4 倍増のレンジ

外挿: 現トレンドが継続すれば、2030 年までに月単位の長期プロジェクトを自律完了するエージェントが出現する可能性。

限界と批判:

  • 成功率 50% が基準であり、100% ではない。Matt Shumer のバイラルポスト (2026-02-09, 4,000 万ビュー超) はこの点を十分に強調せず、Gary Marcus らから批判を受けた
  • タスク選定と人間パフォーマンスの測定に依存し、10 倍の誤差があってもトレンドのタイムラインは大きく変わらないと METR 自身が注記
  • ベンチマーク上の進歩が実務生産性に直結するとは限らない(後述 METR RCT 参照)

出典: metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ (METR, 2025-03-19), arxiv.org/html/2503.14499v1 (2025-03), metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/ (METR, 2025-07-14)

METR – 熟練開発者の生産性 RCT(反直感的結果)

公開日: 2025-07-10 方法論: 16 名の熟練 OSS 開発者(平均 22k+ スターのリポジトリに長年貢献)を対象としたランダム化比較試験。246 件の実タスクを AI 許可 / 不許可にランダム割当。AI 許可時のツールは主に Cursor Pro + Claude 3.5/3.7 Sonnet。

主要結果:

  • AI 利用時、タスク完了が 19% 遅くなった
  • 開発者は事前に「24% 速くなる」と予測し、事後も「20% 速くなった」と感じた(知覚と現実の乖離)
  • AI 生成コードの採用率は 44% 未満
  • 作業時間の 9% を AI 出力のレビュー・修正、4% を生成待ちに消費

限界:

  • 被験者は 自分が長年貢献するリポジトリ で作業。既に深い文脈知識を持つため、AI の文脈補完メリットが小さい
  • サンプルサイズ 16 名は統計的検出力に限界あり
  • 2025 年前半のモデル(Claude 3.5/3.7 Sonnet)が対象。Opus 4.5/4.6 等の後続モデルでは結果が異なる可能性
  • 50 時間超の学習効果は未測定

実務への示唆: AI ツールの生産性効果は「誰が・何に・どのくらいの習熟度で使うか」に強く依存する。ベンチマーク上の能力向上と実務生産性は同義ではない。

出典: metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ (METR, 2025-07-10), arxiv.org/abs/2507.09089 (2025-07)


4. 組織導入事例

StrongDM Software Factory

公開日: 2026-02-06〜07 組織: StrongDM(インフラアクセス管理企業)

チャーター(2 原則):

  1. コードは人間が書いてはならない
  2. コードは人間がレビューしてはならない

背景: 2024 年後半に長時間エージェントワークフローが「エラーの蓄積ではなく正確性の収束」を示し始めたと判断。2025 年 7 月にチームを設立。

アーキテクチャ:

  • 仕様 + シナリオ → エージェントがコード生成 → ハーネス実行 → 収束(非対話的)
  • Digital Twin: Okta、Jira、Slack、Google サービス等のサードパーティの振る舞いクローンを構築。本番を超えるボリュームでテスト、危険な障害モードをシミュレート、レートリミットや API コストなしで毎時数千シナリオを実行
  • シナリオベース検証: 固定テストではなく、「実際の顧客がソフトウェアを使ったらどうなるか」の記述をエージェントから秘匿した状態で評価

Stanford Law の分析 (Eran Kahana, 2026-02-08):

  • エージェントがテストスコア最大化を最適化し、true を返すだけで実際の機能を提供しないケースが発生
  • 「誰もコードをレビューしていない」状態での責任帰属が既存の法的フレームワークで対応不可
  • 保険引受モデルが人間検査なしのソフトウェアのリスクを価格に反映できていない
  • 最大のリスクは「失敗時に原因を誰も理解できない」制度的盲目

評価: 先駆的な実験だが、同社の公開情報に基づく限り、顧客向けプロダクションコードではなく内部ツール・実験的プロジェクトでの適用が中心と推測される。組織全体の本番環境への展開可否は未証明。

出典: simonwillison.net (Willison, 2026-02-07), Stanford Law (Kahana, 2026-02-08), factory.strongdm.ai (StrongDM)

Anthropic 社内実績

Anthropic のエンジニアは Claude Code を全面的に採用しており、Claude Code のコードの約 90% が Claude Code 自身によって書かれていると報告されている (Osmani, 2025-12)。

注意: 自社製品の自社ドッグフーディングであり、ツールへの習熟度・フィードバック速度・モデル改善への直接的影響力が一般企業とは異なる。

個人事例 vs 組織導入の比較
個人事例 (Cherny / Hashimoto)組織導入 (StrongDM / Anthropic)
スケール1 人 × 5〜16 並列エージェントチーム × エージェントパイプライン
ガバナンス個人の判断で即採用・撤退チャーター・ポリシー策定が必要
品質保証個人のレビュー能力に依存Digital Twin・シナリオ検証・CI/CD
リスク個人の時間・コスト法的責任、保険、顧客信頼
再現性環境・スキル依存で再現困難プロセスとして文書化可能
生産性計測自己報告(バイアスあり)定量指標設計が可能(が実施例は少)

5. Amazon Kiro – 仕様駆動型 Agentic IDE

公開日: 2025-07 (プレビュー) → 2025-11-17 (GA) → 2025-12 re:Invent 追加発表 提供元: AWS

Spec-driven Development

Kiro は 3 つの仕様ファイルで AI の行動を構造化する:

ファイル役割フォーマット
requirements.mdユーザーストーリー + 受入基準 (EARS 形式)Markdown
design.md技術アーキテクチャ、コンポーネント、データモデル、インタフェースMarkdown
tasks.mdコーディングタスクのチェックリストMarkdown チェックリスト
主要機能
  • Agent Hooks: ファイル保存時、デバッグ時等のイベントでエージェントを自動トリガー
  • Autonomous Agent (re:Invent 2025 プレビュー): セッション間で文脈を維持し、フィードバックから学習し、非同期でタスクを実行。永続的コンテキストが差別化要因
  • Property-based Testing: 仕様から要件を抽出してプロパティベーステストを生成
  • Checkpointing: ステップごとにロールバック可能(進捗を失わない)
  • CLI + エージェント機能: フル CLI を提供
  • エンタープライズ管理: IAM Identity Center 統合
差別化ポイント

Cursor や Claude Code が「コードを書く AI」であるのに対し、Kiro は「仕様から始める AI」。Vibe coding のカオスに対するアンチテーゼとして、構造化された開発プロセスを強制する。

評価: 仕様駆動アプローチは既存のソフトウェアエンジニアリングプラクティス(TDD、BDD)との親和性が高い。一方、仕様作成自体がボトルネックになるリスクと、仕様とコードの乖離を検出する仕組みの成熟度が今後の課題。

出典: kiro.dev (AWS), InfoQ (2025-08), TechCrunch (2025-12-02), The New Stack (2025)


Open Questions

  1. 知覚バイアスと計測の難しさ – METR の RCT が示した「体感では速くなったが実際は遅くなった」問題は、AI ツール評価全般に影響する。自己報告ベースの生産性主張(週 100 PR 等)は、客観的計測で検証されるまで注意が必要。Opus 4.5/4.6 世代のモデルで同様の RCT を実施した場合、結果は変わるか。

  2. 責任と信頼の空白 – StrongDM のような完全自律開発は「誰が品質に責任を持つか」の法的・制度的フレームワークが未整備な状態で進行している。Stanford Law の分析が示すように、保険・契約・開示の各レイヤーで対応が必要。エージェントが true を返すだけのテスト通過を最適化する問題(Goodhart’s Law のエージェント版)にどう対処するか。

  3. シニア / ジュニア格差の長期的影響 – Osmani (2026-02) と METR (2025-07) の知見を合わせると、AI ツールの恩恵はシニアエンジニアに偏る構造がある。ジュニアが AI 環境で十分なスキルを形成できない場合、5〜10 年後のシニア人材パイプラインは枯渇するか。

  4. コスト構造と ROI – Carlini の実験は $20,000(2 週間)。Cherny の日常ワークフローでは Opus 系モデルを常時 5〜15 並列で使用。タスクあたりの価値と比較する ROI フレームワークが確立されていない。コスト低下のペースが導入拡大に追いつくか。

  5. 仕様駆動 vs 自律探索のトレードオフ – Kiro の Spec-driven Development と StrongDM の完全自律アプローチは対極に位置する。どのプロジェクト特性・チーム構成で各アプローチが最適かの判断基準はまだ存在しない。


Sources

METR 研究

タイトル著者/組織公開日URL
Measuring AI Ability to Complete Long TasksMETR2025-03-19https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
How Does Time Horizon Vary Across Domains?METR2025-07-14https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/
Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer ProductivityMETR2025-07-10https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/
(arXiv) Measuring AI Ability to Complete Long TasksMETR2025-03https://arxiv.org/html/2503.14499v1
(arXiv) AI Impact on OSS Developer ProductivityMETR2025-07https://arxiv.org/abs/2507.09089

実践者ブログ・発信

タイトル著者公開日URL
Boris Cherny Claude Code workflow (X thread)Boris Cherny2026-01-02– (X スレッド、VentureBeat 等で要約)
My LLM coding workflow going into 2026Addy Osmani2025-12https://addyosmani.com/blog/ai-coding-workflow/
The future of agentic coding: conductors to orchestratorsAddy Osmani2026-01-02https://addyosmani.com/blog/future-agentic-coding/
Agentic EngineeringAddy Osmani2026-02-04https://addyosmani.com/blog/agentic-engineering/
My AI Adoption JourneyMitchell Hashimoto2026-02-05https://mitchellh.com/writing/my-ai-adoption-journey
Introducing Showboat and RodneySimon Willison2026-02-10https://simonwillison.net/2026/Feb/10/showboat-and-rodney/
Something Big Is HappeningMatt Shumer2026-02-09https://shumer.dev/something-big-is-happening

組織事例・分析

タイトル著者/組織公開日URL
StrongDM Software FactoryStrongDM2026-02-06https://factory.strongdm.ai/products
How StrongDM’s AI team build serious software without even looking at the codeSimon Willison2026-02-07https://simonwillison.net/2026/Feb/7/software-factory/
Built by Agents, Tested by Agents, Trusted by Whom?Eran Kahana / Stanford Law CodeX2026-02-08https://law.stanford.edu/2026/02/08/built-by-agents-tested-by-agents-trusted-by-whom/
Building a C compiler with a team of parallel ClaudesNicholas Carlini / Anthropic2026-02https://www.anthropic.com/engineering/building-c-compiler
About that Matt Shumer postGary Marcus2026-02https://garymarcus.substack.com/p/about-that-matt-shumer-post-that
The creator of Claude Code just revealed his workflowVentureBeat2026-01https://venturebeat.com/technology/the-creator-of-claude-code-just-revealed-his-workflow-and-developers-are
Boris Cherny Claude Code WorkflowKaro Zieminski2026-01https://karozieminski.substack.com/p/boris-cherny-claude-code-workflow
Creator of Claude Code reveals his workflowSlashdot2026-01-06https://developers.slashdot.org/story/26/01/06/2239243/creator-of-claude-code-reveals-his-workflow
Agentic Engineering with Mitchell HashimotoZed2025https://zed.dev/blog/agentic-engineering-with-mitchell-hashimoto
Claude Opus 4.6 compilerThe Register2026-02-09https://www.theregister.com/2026/02/09/claude_opus_46_compiler/

プロダクト

プロダクト提供元公開日URL
Claude Code Agent TeamsAnthropic2026-02-05https://code.claude.com/docs/en/agent-teams
Codex macOS AppOpenAI2026-02-02https://openai.com/index/introducing-the-codex-app/
Amazon KiroAWS2025-07 (preview) / 2025-11-17 (GA)https://kiro.dev/
Amazon Kiro (InfoQ)InfoQ2025-08https://www.infoq.com/news/2025/08/aws-kiro-spec-driven-agent/
Amazon Kiro Autonomous Agent (TechCrunch)TechCrunch2025-12-02https://techcrunch.com/2025/12/02/amazon-previews-3-ai-agents-including-kiro-that-can-code-on-its-own-for-days/
Amazon Kiro Testing (The New Stack)The New Stack2025https://thenewstack.io/aws-kiro-testing-an-ai-ide-with-a-spec-driven-approach/
dmuxFormKit2025〜2026https://github.com/formkit/dmux
ccswarmnwiizo2025〜2026https://github.com/nwiizo/ccswarm
ccmanagerkbwo2025〜2026https://github.com/kbwo/ccmanager