Post
JA EN

AIバイブコーディング vs 手書き:若手エンジニアの生産性と成長のトレードオフをデータで整理する

AIバイブコーディング vs 手書き:若手エンジニアの生産性と成長のトレードオフをデータで整理する
  • 想定読者: AI時代のコーディング戦略に迷っている若手エンジニア、および若手を育成する立場の人
  • 前提知識: GitHub Copilot、Cursor、Claude Code等のAIツールの基本的な使用経験
  • 所要時間: 15分

概要

「自分でコードを書くのは愚かな行為なのか?」——2026年、若手エンジニアのSNSで繰り返し飛び交うこの問いには、明快な答えがない。生産性派はMITのRCT(経験の浅い層で+27〜39%)1を根拠に「AIフル活用が合理的」と言い、成長派はAnthropicのRCT(理解度17ポイント低下、Cohen’s d=0.738)2を根拠に「スキル形成が阻害される」と警告する。どちらのデータも本物で、どちらも無視できない

本記事は立場を取らない。代わりに、2026年4月時点で確認できる主要データを立場別に整理し、トレードオフの構造を見える化する。そのうえで、自分のキャリア段階や優先順位に応じた判断基準を提示する。

同じ問いに立場を取って答えた姉妹記事——生産性重視ガイド成長重視ガイド——と合わせて読むことで、自分なりの答えを作る手がかりになるはずだ。

2つの立場と主要データの整理

立場A:生産性重視——「若手こそAIを使え」

この立場の中核的な根拠は、Demirer et al.(MIT Sloan、2024)のRCT群だ1。Microsoft・Accenture・匿名のFortune 100電機メーカーの3社で合計4,867名を対象にGitHub Copilotを割り付け、週次完了タスク数で測った。

  • 全体平均:+26%
  • 経験の浅い開発者:+27〜39%
  • 経験豊富な開発者:+8〜13%

これまで実施されたAI生産性RCTで最大級のサンプルサイズだ。「AIは若手ほど伸びる」というパターンは、CHI 2023のKazemitabaarら(10〜17歳69名)でも裏付けられる——コード作成完了率1.15倍、得点1.8倍3。手書き修正タスクに悪影響なし、1週間後の保持テストもわずかに優位(有意差なし)だった。

2025年以降の市場データも追い風だ。Stack Overflow Developer Survey 2025では学習中の開発者の44%がAIツール利用(2024年の37%から上昇)4、JetBrains State of Developer Ecosystem 2025(n=24,534)では開発者の85%がAIを定期利用、68%が「AI熟練度は職務要件になる」と予想している5

立場B:成長重視——「AIに頼ると理解が浅くなる」

この立場の中核的な根拠は、Anthropic 2026 RCT(Shen & Tamkin)だ2。ソフトウェアエンジニア52名(主にジュニア)を対象に、新規Pythonライブラリ「Trio」を用いたタスクをAI支援群と手書き群に割り付けた。

  • クイズスコア:AI群50% vs 手書き群67%(差17ポイント、Cohen’s d=0.738、p=0.01)
  • デバッグで差が最大
  • 生産性向上:統計的に有意ではない

「速くもならず、理解も下がる」というのがこのRCTの最も厳しいメッセージだ。

ただしAnthropic研究のもう一つ重要な発見は、クラスター分析にある。成績が高かったのは、AIをコード生成ではなく概念質問の対話相手として使った「conceptual inquiry only」型の群(n=7)だった。全AI使用者の成績が低かったのではなく、「どのモードで使うか」が分岐を決めている2。この点は後述のハイブリッド案の核になる。

補強としては、Prather et al.(ICER 2024、21名の観察+アイトラッキング)がある6。”illusion of competence”と”Interruption / Mislead / Progression”という3つのメタ認知困難を実証し、AI支援下で二極化(加速する学生と停滞する学生)が起きることを示した。

国内では川村・内田(奈良高専、2025)がAI群の課題時間は短くばらつきも小さいが、理解度テストに有意差なし、「AIが思考・探索機会を減少させる可能性」を報告している7。認知科学面では、Gerlich(2025、666名)がAI利用と認知的オフロードの相関 r=+0.72、オフロードと批判的思考の相関 r=−0.75を報告し、若年層ほどAI依存が高く批判的思考スコアが低いとしている8

データを並べて見える構造

主要研究を1枚に並べると、「生産性と理解の非対称性」が浮かび上がる。

研究対象主な発見対象への留意
MIT Sloan 20241開発者4,867名(RCT+staggered rollout)若手+27〜39%、ベテラン+8〜13%の生産性向上コード品質は測定されず
CHI 2023 Kazemitabaar310〜17歳初学者69名完了率1.15倍・得点1.8倍。手書き修正に悪影響なし成人若手への一般化は要注意
Anthropic 20262エンジニア52名(主にジュニア)理解度17ポイント低下(Cohen’s d=0.738、大効果)。生産性は有意差なし新規ライブラリ学習タスクに特化
ICER 2024 Prather6学生21名“illusion of competence”実証。二極化パターン観察研究、因果推論は限定的
奈良高専 20257高専生時間短縮、理解度差なしサンプル規模限定
METR 20259ベテランOSS開発者16名AI使用時に19%減速、開発者は20%速いと誤認対象がベテランで若手とは異なる
Gerlich 20258一般労働者666名認知的オフロードと批判的思考 r=−0.75相関研究、因果は不明

この表を眺めると、2つのパターンが見える。

flowchart TB
    A["何を測るか"] --> B["完了タスク数<br>(量的生産性)"]
    A --> C["理解度・デバッグ力<br>(質的スキル)"]

    B --> D["MIT Sloan等<br>若手ほど向上大"]
    C --> E["Anthropic等<br>若手ほど低下大"]

    D --> F["短期の会社業績指標で<br>プラスに見える"]
    E --> G["3〜5年後の<br>レビュー工数・バグ率・保守性"]

    classDef pos stroke:#2ea44f,stroke-width:3px
    classDef neg stroke:#cf222e,stroke-width:3px
    class D,F pos
    class E,G neg

量で測れば若手×AIは強い。質で測れば若手×AIは危険。これが2つのデータセットが両立する構造だ。どちらも真実で、どちらも無視できない。

誤解を解いておく——「vibe coding 3倍」の神話

この議論で混乱を生んでいるのが、「vibe codingで生産性3倍/5倍」という類の言説だ。一次研究を調べると、この数値はRCTでは裏付けられていないことがわかる。

流通している数値の多くは自己申告ベースのサーベイだ。Bubble社の2025 State of Visual Developmentでは、ユーザー自己申告で「10倍以上 23.5%」「5〜10倍 16.7%」「3〜5倍 19.1%」という数字が並ぶ10。しかし対照群がなく、Bubbleユーザーという特殊な母集団が対象で、因果推論はできない。

一方、厳密なRCTは異なる絵を描く。

  • MIT Sloan 2024(RCT):若手+27〜39%、平均+26%1
  • METR 2025(RCT、ベテラン)19%減速、開発者は20%速いと誤認9
  • Anthropic 2026(RCT、ジュニア):生産性向上は統計的に有意でない2

RCTが示すのは、「良く使っても数十パーセントの向上、悪く使えば減速する」という慎ましい姿だ。「3倍」「5倍」という数字を見たら、一次ソースがRCTか自己申告サーベイか確認する——これが2026年の基本リテラシーになる。

METR研究の最も示唆的な発見は、開発者が自分の速度を誤認するという点だ9。体感は実測とずれる。若手が「AIで超速で書けている」と感じていても、実測では大差ないか遅くなっている可能性がある。この誤認はAnthropic研究でも「illusion of competence」として理解度面で確認されている2

実務判断のための3つのフレーム

データの整理だけでは決められない。以下の3つのフレームで、自分のコンテキストに当てはめてほしい。

フレーム1:キャリアの時間地平

今日から1年の最適化5〜10年の最適化は、別の答えになる。

  • 短期最適化(次のレビュー、次のプロジェクト):生産性派。MIT研究の27〜39%を取りに行く
  • 中期最適化(次の転職、次の昇進):両立必須。採用側は「AIが使える」と「基礎ができる」の両方を見る
  • 長期最適化(10年のキャリア):成長派寄り。デバッグ力・読解力・設計力は手書きの累積でしか育たない

20代前半でこれから30〜40年働くなら、短期の生産性よりも基礎固めの複利効果のほうが大きい。既に30代で現職での即時成果が重要なら、生産性優先も合理的だ。

フレーム2:タスクの性質

すべてのタスクが同じではない。新規学習 vs 既習領域保守 vs 新規開発で最適解が変わる。

flowchart TB
    A["タスクの性質"] --> B["新規学習"]
    A --> C["既習実装"]
    A --> D["保守・デバッグ"]
    B --> E["手書き+AI質問"]
    C --> F["AIフル活用"]
    D --> G["手書き優先"]

    classDef hand stroke:#2ea44f,stroke-width:3px
    classDef ai stroke:#6366f1,stroke-width:3px
    class E,G hand
    class F ai

Anthropic RCTが新規ライブラリ学習タスクで17ポイントの理解度低下を示したこと2は重要だ。この研究結果は「既習領域でCRUDを書くとき」には必ずしも当てはまらない。未知の領域に踏み込むときほど手書きベース、既習領域ではAI活用、という使い分けが合理的だ。

フレーム3:評価環境の現実

自分の環境で何が評価されるかを正確に見る。

  • スタートアップで1人で立ち上げフェーズ:即時の動くプロダクトが正義。生産性派が合理的
  • 大企業でレガシー保守:デバッグ力・読解力が評価軸。成長派が合理的
  • エンジニア採用を目指す時期:面接ではAI使用制限が増えている。手書き力は必須
  • 既に実力を認められて長期雇用:本人の好みと学習観で選べる

「AIを使うほうが賢い」「手書きするほうが賢い」という普遍解はない。自分の環境で何が評価されるか、3〜5年後にどういうエンジニアになりたいかで答えが決まる。

ハイブリッドの具体案——70/30から始める

完全に立場を決め切る必要はない。2つの派の主張を両立させる実践的な目安として、新規学習は手書き70%・AI30%、既習領域はAI70%・手書き30%で始めるのを推奨する。

コンテキスト手書き比率AI用途
新規ライブラリ・フレームワークの学習70%概念質問、エラーメッセージの解釈
既習技術での定型実装30%ボイラープレート生成、テスト生成
デバッグ80%最後の手段としてヒント質問
コードレビュー・リファクタ50%代替案の生成、観点の洗い出し
技術選定・設計判断90%比較軸のブレスト相手

この比率は、Anthropic RCTの最高成績群(conceptual inquiry型)の使い方2とMITの生産性向上データ1の中間を狙う設計だ。Bjork & Bjorkの「desirable difficulties」理論11で言えば、必要な認知的負荷は残しつつ、不要な負荷だけをAIに外出しするバランスになる。数値自体は厳密な最適解ではなく出発点の目安であり、3ヶ月ごとに次節の自己評価で微調整する前提だ——実務では新規学習の比率を80/20から始めて徐々に下げる、既習領域では50/50から始めてAI比率を上げる、といった個別調整が現実的だろう。

この比率を3ヶ月ごとに自己評価する。デバッグが速くなっているか、説明できるコードが増えているか、AIなしで書ける量が増えているか——データは自分で取るしかない。

まとめ——「愚か」かどうかは使い方次第

2026年4月時点、データが示す答えはこうだ。

  • AIを全面委譲する若手は危険:Anthropic RCTの17ポイント、ICERの”illusion of competence”、Gerlichの認知的オフロードが一致してリスクを指摘
  • AIを全面拒否する若手は非効率:MITの27〜39%、CHI 2023の完了率1.15倍が短期生産性の恩恵を示す
  • AIを概念質問モードで使う若手が最強:Anthropic RCTの高成績群の使い方、conceptual inquiry型

「自分でコードを書くのは愚かな行為なのか?」の答えは、「AIをどう使うかによる」だ。AIを使わずに書くのは短期的に不利だが、AIに丸投げして書かないのも長期的に危険。両者のスイートスポットは、AIを対話相手にして自分で書くという第三の型にある。

より具体的な実践法を求める読者は、生産性重視ガイドで4つの原則を、成長重視ガイドで4ステップの手順を提示している。自分の優先順位に応じて選び、3ヶ月ごとに比率を見直してほしい。

関連する視点として、エキスパートがバイブコーディングで成果が出ない問題AIデスキリング・パラドックスAIは「スキルの均等化装置」も合わせて読むことで、2026年のAI×スキル形成の全体像が立体的に見えてくる。

脚注

  1. Demirer, M., Cui, Z., Musolff, L., Jaffe, S., Peng, S., & Salz, T. (2024). “The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers.” SSRN Working Paper ID 4945566. 記事版: MIT Sloan, 2024年11月4日。3社合計4,867名でのRCT+staggered rollout。全体+26%、若手+27〜39%、ベテラン+8〜13%。 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5

  2. Shen, J. H., & Tamkin, A. (2026). “How AI assistance impacts the formation of coding skills.” Anthropic, 2026年1月29日公開。52名(主にジュニア)、新規Pythonライブラリ(Trio)学習RCT。クイズスコアAI群50% vs 手書き群67%(Cohen’s d=0.738、p=0.01)。生産性向上は有意差なし。高成績群(65%以上)は「conceptual inquiry only」型 n=7 が最高。https://www.anthropic.com/research/AI-assistance-coding-skills、論文版 arXiv:2601.20245 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7 ↩︎8

  3. Kazemitabaar, M., Chow, J., Ma, C. K. T., Ericson, B. J., Weintrop, D., & Grossman, T. (2023). “Studying the effect of AI Code Generators on Supporting Novice Learners in Introductory Programming.” CHI 2023. 10〜17歳69名。完了率1.15倍、得点1.8倍、手書き修正タスクに悪影響なし。https://arxiv.org/abs/2302.07427 ↩︎ ↩︎2

  4. Stack Overflow. (2025). “2025 Developer Survey: AI.” 学習中の開発者の44%がAIツール使用。https://survey.stackoverflow.co/2025/ai ↩︎

  5. JetBrains. (2025). “The State of Developer Ecosystem 2025.” 24,534名対象、194カ国。85%がAI定期利用、68%が「AI熟練度は職務要件になる」と予想。https://devecosystem-2025.jetbrains.com/artificial-intelligence ↩︎

  6. Prather, J., et al. (2024). “The Widening Gap: The Benefits and Harms of Generative AI for Novice Programmers.” ICER ‘24. 21名観察+アイトラッキング。”illusion of competence”と”Interruption / Mislead / Progression”を実証。https://arxiv.org/abs/2405.17739 ↩︎ ↩︎2

  7. 川村達矢・内田眞司. (2025). “生成AIによるプログラミングが学習効果に与える影響.” 奈良工業高等専門学校. AI群は課題時間短縮・ばらつき小さいが理解度差なし。https://www.jsise.org/wp-content/uploads/2025/02/2024_kansai_p09.pdf ↩︎ ↩︎2

  8. Gerlich, M. (2025). “AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking.” Societies, 15(1), 6. 666名対象。AI利用と認知的オフロード r=+0.72、オフロードと批判的思考 r=−0.75。https://www.mdpi.com/2075-4698/15/1/6。なお2025年9月に Societies 15(9), 252 でTable 4の訂正が出ているが、著者は科学的結論は不変と表明。 ↩︎ ↩︎2

  9. METR. (2025年7月). “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity.” 16名・246タスクのRCT。AI使用時に19%減速、開発者は20%速くなったと誤認。https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study/ ↩︎ ↩︎2 ↩︎3

  10. Bubble. (2025). “2025 State of Visual Development and AI App Building.” ユーザー自己申告ベースのサーベイで「10倍以上 23.5%」「5〜10倍 16.7%」等の数値。対照群なし。https://bubble.io/blog/2025-state-of-visual-development-ai-app-building/ ↩︎

  11. Bjork, E. L., & Bjork, R. A. (2011). “Making Things Hard on Yourself, But in a Good Way: Creating Desirable Difficulties to Enhance Learning.” UCLA Bjork Learning and Forgetting Lab. https://bjorklab.psych.ucla.edu/wp-content/uploads/sites/13/2016/04/EBjork_RBjork_2011.pdf ↩︎

This post is licensed under CC BY 4.0 by the author.