「AIで19%遅くなる」のその後——METR自身が認めた選択バイアスと、変わりゆく生産性の真実
この記事はAIによって生成されています。内容の正確性は保証されず、記事の利用による損害について一切の責任を負いません。この記事を読み進めることで、利用規約に同意したものとみなされます。
- 想定読者: ソフトウェアエンジニア、AIツールを日常的に使用する開発者
- 前提知識: GitHub Copilot、Cursor、Claude Code等のAIツールの使用経験
- 所要時間: 15〜20分
概要
「熟練開発者がAIを使うと19%遅くなる」——2025年7月にMETR(Model Evaluation & Threat Research)が発表したこの研究結果は、AIコーディングツールの効果に疑問を投げかけるものとして広く引用された。
そして2026年2月24日、METR自身が実験デザインの変更を発表した1。理由は選択バイアス——「AIなしでは作業したくない」と回答する開発者が30〜50%に達し、研究の信頼性が揺らいだためだ。
本記事では、元の研究(2025年7月)と追試(2025年8月〜、2026年2月発表)の両方を正確に読み解き、「AIは開発者を速くするのか遅くするのか」という問いに、2026年3月時点で最も誠実な回答を試みる。
METR研究の時系列
第1研究(2025年2月〜6月)
METR研究は、以下の条件で実施された2:
- 参加者: 16人の経験豊富なオープンソース開発者
- タスク数: 246タスク
- 手法: ランダム化比較試験(RCT)——各タスクでAI使用を許可するかどうかをランダムに割り当て
- 対象リポジトリ: 参加者が複数年にわたり貢献してきた馴染みのあるプロジェクト
- 使用ツール: 主にCursor ProとClaude 3.5/3.7 Sonnet
- 報酬: $150/時間
主な発見
- AIを使用すると、タスク完了に19%長くかかった(信頼区間: +2%〜+39%)
- 開発者は事前に「24%速くなる」と予測していた
- 実際に遅くなった後も、「20%速くなった」と信じていた
知覚と現実の間に39ポイントの乖離——これがこの研究の最も重要な数字であり、多くのメディアで取り上げられた。
第2研究(2025年8月〜)
METRは第1研究の結果を踏まえ、規模を拡大して追試を行った1:
- 参加者: 57人(元の研究から10人 + 新規47人)
- タスク数: 800以上
- リポジトリ: 143(より多様——小規模・グリーンフィールド・未成熟なものも含む)
- 使用ツール: 最新のAIツール(Claude Code、Codex等のエージェント型を含む)
- 報酬: $50/時間(第1研究の1/3)
結果
| コホート | 推定スピードアップ | 信頼区間 |
|---|---|---|
| 第1研究の参加者(継続) | -18%(18%速くなった) | -38%〜+9% |
| 新規参加者 | -4%(4%速くなった) | -15%〜+9% |
| 第1研究(参考) | +19%(19%遅くなった) | +2%〜+39% |
数字だけを見ると、「19%遅くなった」から「18%速くなった」への劇的な改善に見える。しかし、METRはこの結果を額面通りには受け取っていない。
METR自身が認めた3つの問題
問題1: 開発者がAIなしの作業を拒否するようになった
2025年を通じて、Claude CodeやCodexなどのエージェント型ツールの利用が急速に拡大した。その結果、研究への参加に大きな変化が生じた1:
「AIなしで仕事の50%をこなしたくないと言う開発者の割合が増加しました。当研究は自分の好きなタスクに取り組むことに対して$50/時間を支払っているにもかかわらず、です」
つまり、AIの恩恵を最も強く実感している開発者ほど研究に参加しない。これは研究の推定値を下方にバイアスさせる。
問題2: タスク選択バイアスの深刻化
参加した開発者も、提出するタスクを選り好みしていた1:
「調査で、30%〜50%の開発者が、AIなしではやりたくないという理由で一部のタスクを提出しなかったと回答しました」
ある開発者の証言は、この問題を生々しく伝えている:
「実はかなりバイアスのかかったタスク選択をしていることに気づきました…AIなら2時間で終わるのに、自分でやると20時間かかるようなタスクは避けています。もしそのタスクがAI不可に割り当てられたら、本当に苦痛ですから」1
AIが最も威力を発揮するタスクが、研究から系統的に除外されていたのだ。
問題3: 並行作業の測定不能
エージェント型AIツールの登場により、開発者の作業パターンが根本的に変わった1:
- 複数のAIエージェントを同時に実行し、別の作業を行う
- エージェントの作業完了を待つ間に、別のタスクに取り掛かる
- この「並行作業」の時間をどう計測するかが曖昧
flowchart TB
B1["⏱️ 従来型: タスクA開始"]
B1 --> B2["タスクA完了"]
B2 --> B3["タスクB開始"]
B3 --> B4["タスクB完了"]
A1["🤖 エージェント型:<br>タスクAをエージェントに指示"]
A1 --> A2["タスクBに取り掛かる"]
A2 --> A3["エージェントAの結果を確認"]
A3 --> A4["タスクCをエージェントに指示"]
B4 --> Q["⚠️ RCTの「1タスク=1時間」<br>前提は並行作業で成立しない"]
A4 --> Q
METRのトランスクリプト分析3では、並行エージェント使用と時間節約の間に強い相関が見られた。最も高い時間節約率を達成した研究者は、平均2.32個のメインエージェントを同時に稼働させ、11.62倍の時間節約を記録した。一方、他のスタッフは1.05〜1.52個のエージェントで、節約率も低かった。
ただし、この分析はMETR内部のスタッフ7名のClaude Codeトランスクリプト5,305件に基づくもので、ソフト上限(実際の生産性倍率はこれより低い)であるとMETR自身が注記している3。
選択バイアスの補正:「真の効果」はどのあたりか
LessWrongに投稿された第三者による統計分析4は、METRデータの異質性を掘り下げている。
- 全体: 約6%のスピードアップ
- AI効果が高いと予測されたタスク群(AI有無の予測差60分以上): 12%のスピードアップ
- 最も効果の高い開発者: 25%のスピードアップ
この分析では、「選択バイアスで50%のタスク/開発者が除外された」と仮定したヒューリスティックな補正を行い、真のスピードアップは約20%と推計している4。
信頼区間が広く、補正手法もヒューリスティックであるため確定的な数値ではないが、方向性は明確だ。METRの測定値は下限であり、真の効果はそれより上にある可能性が高い。
しかし、「AIで速くなる」は万能ではない
ここで早まった楽観論に釘を刺しておきたい。
ボトルネックの移動:コードレビューの危機
Faros AIが10,000人以上の開発者から収集したテレメトリデータ5は、AIの生産性向上が組織レベルでは消失することを示している。
| 指標 | 高AI採用チーム vs 低AI採用チーム |
|---|---|
| タスク処理数 | +21% |
| PRマージ数 | +98% |
| PR平均サイズ | +154% |
| レビュー時間 | +91% |
| 開発者あたりバグ数 | +9% |
| 組織レベルのDORAメトリクス | 変化なし |
flowchart TB
A["✅ AIがコード生成を2倍速に"] --> B["PRが+98%増加<br>サイズも+154%"]
B --> C["レビュー時間が+91%膨張"]
C --> D["❌ 組織のデリバリー速度<br>変化なし"]
これはAmdahl’s Law(アムダールの法則)の教科書的な実例だ。コーディングはソフトウェア開発ライフサイクルの25〜35%に過ぎない6。仮にコーディングが100%速くなっても、全体改善は15〜25%が上限。そして現実には、ボトルネックがコードレビューに移動しただけだ。
マクロ経済データに変化なし
Philipp Dubachの包括的な分析6は、マクロデータの沈黙を指摘している:
- Apollo Global ManagementのチーフエコノミストTorsten Slok: 「AIはマクロ経済データ以外のあらゆるところに存在する」
- NBERの2026年2月の調査: 80%以上の企業が過去3年間のAIの生産性への影響はなかったと報告
- 今後3年間の期待改善率: 1.4%
- 2024年ノーベル経済学賞受賞者Daron Acemoglu: AIによる全要素生産性向上は今後10年で0.5%と予測
92.6%という高い採用率にもかかわらず、組織・経済レベルでの変化は計測できていない。
コード品質の問題
AI生成コードの品質についても、楽観視できるデータではない6:
- Veracode: AIが生成したコードの45%がOWASP Top 10脆弱性を含む
- CodeRabbit: AI生成コードはセキュリティ脆弱性が2.74倍多い
- Black Duck 2026 OSSRAレポート: コードベースあたりの脆弱性が前年比+107%(280→581件)
- AI生成コードは人間が書いたコードより1.7倍多くの問題を含む
METR研究が問うている本当の問い
ここまでの議論を整理すると、以下の構図が浮かび上がる。
flowchart TB
T["✅ タスクレベル<br>改善の証拠あり<br>(METR追試、Google RCT)"]
TM["⚠️ チームレベル<br>量は増えるがレビューが<br>ボトルネック(Faros AI)"]
O["❌ 組織レベル<br>デリバリー速度・品質<br>変化なし(DORA 2025)"]
MA["❌ マクロレベル<br>経済全体の生産性<br>変化なし(NBER 2026)"]
T --> TM --> O --> MA
METR研究の真の貢献は、「AIで19%遅くなる」という数字そのものではない。それは、「AIが開発者を速くする」という単純な物語の背後にある、はるかに複雑な現実を明らかにしたことだ。
2026年3月時点で言えること
METR研究の時系列を踏まえ、以下が現時点で最も誠実な評価だろう。
ほぼ確実に言えること
- METR第1研究の「19%遅くなる」は、選択バイアスと条件の特殊性により、一般化には不適切。METR自身がこれを認めている1。
- タスクレベルでは、AIは多くの開発者を速くしている。ただし効果の大きさはコンテキストに強く依存する。
- 知覚と現実には乖離がある。開発者は実際の効果よりもAIを高く評価しがちだ。この39ポイントの知覚ギャップは追試でも確認されている。
証拠が蓄積されつつあること
- 並行エージェント使用が効果を劇的に変える。従来の「1タスク→完了→次のタスク」という作業パターンでの測定は、エージェント型AIの真の価値を捉えていない可能性が高い3。
- 組織レベルでは、ボトルネックがコードレビューに移動する。個人の速度向上が組織全体の改善に直結しない5。
まだわからないこと
- AIの真のタスクレベル効果。選択バイアスを補正した推計は約20%のスピードアップだが4、信頼区間は広い。
- 長期的なマクロ経済効果。90年代のIT投資のように、遅延して顕在化する可能性は排除できない。
あなたの実感はたぶん正しい——ただし、3つの注意点
もしあなたが「AIで明らかに速くなっている」と感じているなら、その実感は間違っていない可能性が高い。METR自身が、「2026年初頭時点で、開発者はAIツールによってより速くなっている可能性が高い」と述べている1。
ただし、以下の点は忘れないでほしい:
- 知覚と現実のギャップは依然として存在する。自分の感覚を過信せず、可能であれば実測してみよう。
- あなたが速くなっても、チーム・組織が速くなるとは限らない。ボトルネックがどこに移動するかに注目しよう。
- AIが生成するコードの品質には注意が必要だ。速度と引き換えにセキュリティリスクを増大させていないか、点検しよう。
研究は「嘘」ではないし、あなたの実感も「嘘」ではない。問題は、どちらも部分的な真実であるということだ。
関連記事
- コーディングエージェント機能競争の現在地——Claude Codeが切り拓き、業界が追いかける構図 - AIコーディングツールの機能比較
- 使えば使うほど、使えなくなる——AIデスキリング・パラドックスの実証研究 - AIがスキルを退化させるメカニズム
- オートメーション・バイアス——なぜ人はAIの間違いを見抜けないのか - AI出力を過信する認知バイアス
- 「AIに丸投げ」に見える熟練者の真実 - 熟練者のAI活用パターン
- AI丸投げのパラドックス:受動的ツールが能動的人間を育てる理由 - AI委任の逆説的効果
参考資料
本文中の引用番号に対応する参考資料を番号順に記載しています。
その他参考資料(本文中で番号引用なし)
The reality of AI-Assisted software engineering productivity - Addy Osmani (2025). Google RCT(21%速い)等を引用した包括的レビュー. 【信頼性: 中〜高】
My Participation in the METR AI Productivity Study - Domenic Denicola (2025). 第1研究参加者による振り返り. 【信頼性: 中〜高】
DORA Report 2025 - Google Cloud (2025). ソフトウェアデリバリーメトリクスの包括的調査. 【信頼性: 高】
[AI 2025 Stack Overflow Developer Survey](https://survey.stackoverflow.co/2025/ai) - Stack Overflow (2025). AI好感度が70%→60%に低下. 【信頼性: 高】
We are Changing our Developer Productivity Experiment Design - METR (2026). Joel Becker, Nate Rush, Tom Cunningham, David Rein, Khalid Mahamud. 【信頼性: 高】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7 ↩︎8
Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity - METR (2025). 【信頼性: 高】 ↩︎
Analyzing coding agent transcripts to upper bound productivity gains from AI agents - METR (2026). Amy Deng. 研究ノート. 【信頼性: 中〜高】 ↩︎ ↩︎2 ↩︎3
Assessing heterogeneity in METR’s late 2025 developer productivity experiment - LessWrong (2026). METR第2研究データの第三者による統計分析. 【信頼性: 中】 ↩︎ ↩︎2 ↩︎3
The AI Productivity Paradox Report 2025 - Faros AI (2025). 10,000人以上の開発者テレメトリデータに基づく分析. 【信頼性: 中〜高】 ↩︎ ↩︎2
AI Coding Productivity Paradox: 93% Adoption, 10% Gains - Philipp D. Dubach (2026). 複数の研究を統合した包括的分析. 【信頼性: 中】 ↩︎ ↩︎2 ↩︎3