Post
JA EN

AI時代こそ自分でコードを書くべき若手のための実践ガイド——17ポイントの理解度低下から身を守る

AI時代こそ自分でコードを書くべき若手のための実践ガイド——17ポイントの理解度低下から身を守る
  • 想定読者: キャリア初期で、長期的なスキル形成を最優先したい若手エンジニア
  • 前提知識: GitHub Copilot、Cursor、Claude Code等のAIツールの基本的な使用経験
  • 所要時間: 13分

概要

AIがコードを一瞬で生成してくれる世界で、自分でコードを書くのは愚かな行為なのか。この問いに、生産性の観点からは「若手こそAIを使え」という答えが用意されている1。実際、MIT・Microsoftの共同RCTでは経験の浅い開発者で+27〜39%の生産性向上が報告された1。短期成果だけを見れば、手書きは確かに非効率だ。

ところが同じ2026年1月、Anthropicが公開したRCT(52名、主にジュニア)は真逆の風景を示した2。新規Pythonライブラリ学習で、AI支援群はクイズスコアが50% vs 手書き群67%と17ポイント低く、デバッグで差が最大生産性向上は統計的に有意ではなかった。Cohen’s d=0.738、p=0.01——心理学で「大きな効果」と分類される差が、AI群の理解度低下として現れている。

さらにICER 2024でPrather et al.が21名の学生を観察した研究では、AI支援下で”illusion of competence(わかった気)”と”Interruption / Mislead / Progression”という3つの新規メタ認知困難が実証された3。「動くコードは作れるのに、なぜ動くかは説明できない」という状態だ。

本記事は、長期的なスキル形成を最優先する立場から、手書きを軸にAIを限定的な補助として使うための実践的な枠組みを提示する。対をなす生産性重視ガイドトレードオフ全体整理も合わせて読むことで、自分の優先順位が明確になるはずだ。

データが示す「AI支援下の学習劣化」

Anthropic 2026 RCTの衝撃

Shen & Tamkin(Anthropic、2026年1月29日公開)の研究は、ソフトウェアエンジニア52名を対象に、Python非同期ライブラリ「Trio」を用いた機能実装タスクをAI支援群と手書き群に割り付けた2。対象はPythonを1年以上週1回以上使う経験者で、Trioには不慣れ——つまり実務で起こる「新しいライブラリを学ぶ」状況を再現した設計だ。

結果は明快だった。

指標AI支援群手書き群
クイズスコア(理解度)50%67%−17ポイント
生産性(完了時間)約2分短い有意差なし
デバッグ能力最大の差

Cohen’s d=0.738という効果量は、教育心理学の分類で「大きな効果」に相当する。「ほぼ2段階分の成績差」とAnthropic自身が評している。そして生産性向上は統計的に有意ではなかった——速さを得るためにスキルを失う取引ですらない、というのがこのRCTの最も厳しい示唆だ。

「使い方のタイプ」が分岐を生む

ただし、Anthropic研究で最も実用的な発見は平均値ではなくクラスター分析にある2。高成績群(65%以上)と低成績群(40%未満)のAIの使い方を分類すると、鮮やかなパターンが現れた。

flowchart TB
    A["AI使用パターン"] --> B["高成績群 65%+<br>概念質問中心 計n=12"]
    A --> C["低成績群 40%-<br>コード委譲中心 計n=12"]
    B --> D["エラーを自力解決"]
    C --> E["AI出力を貼り付け"]

    classDef good stroke:#2ea44f,stroke-width:3px
    classDef bad stroke:#cf222e,stroke-width:3px
    class B,D good
    class C,E bad

最高成績を取ったのは、AIにコードを書かせず概念質問だけに使った群だった。エラーが出ても自力で解決し、AIを「テキストで質問できる教科書」として扱っていた。逆に最低成績群は、AIに「直して」と頼み続け、返ってきたコードをそのまま使う——という型が典型だった。

つまりAIは単に使うか使わないかではなく、どのモードで使うかで学習効果が逆転する。「vibeで丸投げする」タイプの使い方は、データ上最も危険な選択肢だ。

ICER 2024の”Widening Gap”

Pratherら(ICER 2024)は、プログラミング初学者21名を観察+アイトラッキングで追跡した3。観察されたのは、加速する学生と停滞する学生への二極化だった。停滞側は次の3つのメタ認知困難を示した。

  • 中断:AI提案が思考の流れを断ち、自分で書くとしたら何を書くかを考える時間が失われる
  • 誤誘導:AIが巧妙に誤った方向を提示し、学生は自力では気づけない
  • 偽の進捗感:コードが増えて動いているように見えるが、実際には理解が伴っていない

これらのメタ認知困難が重なって生じるのが”illusion of competence”——「理解した錯覚」だ。学生たちはAI支援で書いたコードを見て「わかった」と感じるが、同じ機能を自力で書こうとすると書けない。

これは学習科学の古典とも一致する。Karpicke & Roediger(2008、Science)は、学生が再読やハイライトで「わかった気」になる一方、実際の検索練習(アクティブな想起)のほうが長期保持に優れることを示した4。AIコード生成は、学習科学で最もパフォーマンスが低い「受動的再読」に似た認知プロセスを生む。

奈良高専の追試

国内の研究でも類似の構造が確認されている。川村・内田(奈良高専、2025)は学生を対象にChatGPT支援と手書きを比較し、AI群は課題時間が短くばらつきも小さいが、理解度テストに有意差なしと報告した5。さらに「AIが思考・探索機会を減少させる可能性」を定性的に指摘している。

「速く終わるが深く学べない」——これが複数のデータが共通して示す構造だ。

なぜ「書く」行為が重要なのか——認知科学の視点

生成効果と desirable difficulties

学習科学にはBjork & Bjorkの「desirable difficulties(望ましい困難)」という概念がある6。検索練習、分散学習、インターリーブ、そして生成(自分で答えを作り出す行為)——これらは短期的にはパフォーマンスを下げるが、長期的な記憶と転移を強化する。

手書きでコードを書くことは、この「生成」そのものだ。変数名を決める、データ構造を設計する、制御フローを組み立てる——すべて自分で答えを生成する行為であり、記憶と理解を深める認知的な筋トレになる。

AIがこの生成を肩代わりすると、短期の流暢性は上がるが長期の保持は下がる。Bjork理論の古典的な予測が、Anthropic RCTの17ポイントという数字で裏付けられている。

認知的オフロードが批判的思考を削る

Gerlich(2025、Societies誌、666名対象)の研究は、AI利用と認知的オフロード(判断を外部に委ねる行為)の関係を測定した7。結果は厳しい。

  • AI利用と認知的オフロード:r = +0.72(強い正の相関)
  • 認知的オフロードと批判的思考:r = −0.75(強い負の相関)
  • 若年層ほどAI依存が高く、批判的思考スコアが低い

「若い頃にAIを使う習慣が、批判的思考を育てる機会を奪う」——これは相関研究なので因果の証明ではないが、若手こそ慎重になる理由として十分強いシグナルだ。

デバッグ筋が育たない構造

Anthropic RCTで最も差が大きかったのはデバッグだった2。これには理由がある。

書く作業は「頭のモデルを外に出す」プロセスだが、デバッグは「コードの挙動から内部状態を推測する」プロセスだ。後者はコードを自分の頭の中に再構築する訓練そのもので、これをAIに任せると、コードを読む筋肉が育たない。

現場で5年、10年と仕事をする上で、本当に価値を持つのは「他人の書いた巨大なコードベースを読み解く力」だ。この力は書く練習ではなく読む・追う・推測する練習で育つ。AIはこの練習の機会を静かに奪っていく。

実践——「手書きベース+AI限定補助」の4ステップ

ステップ1: 書く前に5分、自分で考える

AIを開く前に、5分間だけ疑似コードかスケッチで自分の解法を書く。完全でなくていい、「こういう流れだろう」という骨格だけで十分だ。

flowchart TB
    A["タスク受領"] --> B["5分間の自力思考<br>疑似コード・スケッチ"]
    B --> C["自分の解法 v1"]
    C --> D["AIで代替案を取得"]
    D --> E["自分の解法との差分を分析"]
    E --> F["自分で書く or<br>AIの良い部分を取り入れる"]

    classDef think stroke:#2ea44f,stroke-width:3px
    class B,C,E think

この5分は、「自分なら何を書くか」の仮説を立てる時間だ。AIの出力が返ってきたとき、その仮説との差分で学習が発生する。仮説がないままAI出力を受け取ると、差分がわからず、「なるほど」で終わってしまう。

ステップ2: AIを開くのは「概念質問」モードで

Anthropic RCTの最高成績群がやっていた使い方だ2。コードを書かせるのではなく、質問する相手としてAIを使う。

【NG:コード生成モード】
「この機能を実装するReactコンポーネントを書いて」

【OK:概念質問モード】
「Reactで状態管理をuseStateとuseReducerで分ける基準は?」
「このコードのuseMemoが必要な理由を3つ挙げて」
「このエラーメッセージが出るシナリオを3つ挙げて」

質問の答えをもとに、コードは自分で書く。AIを「テキスト化された先輩エンジニア」として扱う感覚だ。これだけで「illusion of competence」はかなり防げる。

ステップ3: デバッグは最低30分は自分で

Anthropic RCTでデバッグ差が最大だった事実2と、Pratherの”Mislead”現象3を踏まえると、デバッグこそAIに頼るべきではない領域だ。

ルールはシンプル。

  • 最初の30分:AIなしで原因を推測する。print、log、デバッガ、MCVE(最小再現コード)を使う
  • 30分経っても解けない:AIに「ヒントだけ」求める。「どこを調べるべき?」「このエラーは何を意味する?」はOK、「直して」はNG
  • ヒントをもらったら:再び自分で直す

最初は時間がかかるが、3ヶ月もすると明らかにデバッグが速くなる。これはAIを使い続けた同期との、5年後の最大の差になる。

ステップ4: AIコードは1行ずつトレースする

AIに書かせたコードをそのまま採用するのが最も危険だ。採用前に必ず1行ずつ指で追い、「なぜこの行が必要か」を声に出すか書き出す

  • 「この if はなぜ必要?」→ nullチェックが必要な場面があるから
  • 「この useMemo は何を防いでいる?」→ 親が再レンダーされるときの重い計算を防ぐ
  • 「この例外処理はなぜこの階層にある?」→ …

声に出せない、書き出せない行があったら、それは自分が理解していない行だ。その行は使わないか、理解するまで調べる。

これは時間がかかる。だが思い出してほしい——Anthropic RCTでAI群の生産性向上は統計的に有意ではなかった2。「AIを使うと速くなる」という直感自体がデータに裏打ちされていない。丁寧にトレースしても、最終的な完成時間は大差ない可能性が高い。

手書きを続ける若手への返答集

「周りがAIを使っているから遅れるのでは」

Stack Overflow 2025で全体の84%がAIを使用/使用予定となっている8一方、AIへの信頼度は60%まで低下した(2023-24年の70%超から急落)。「みんなが使っている」は事実だが、「みんなが信頼しきっている」ではない。

むしろAIなしでも書けて、かつAIを概念質問で使いこなせる若手は、今のほうが希少価値が高まっている。採用面接や実装課題では、AIを切った状態での基礎力が問われる場面が増えており、この設計は現在の採用動向と整合している。

「生産性が低いと評価されないのでは」

短期の評価指標(PR数、コミット数、チケット消化数)では、AIフル活用の同僚のほうが一時的に高く出ることはある。だが「ほぼ正しい」コードの罠で述べたように、3〜5年するとレビュー工数・バグ率・保守コストの形で跳ね返ってくる。

長期の評価指標(設計力、デバッグ力、レガシー対応、メンタリング)は、手書きで鍛えた筋肉でしか測れない。キャリア初期の数年を基礎固めに使うのは、金融的に言えば「複利で効く投資」だ。AIデスキリング・パラドックスで論じたフィードバックループが、若手期に最も強く働く。

「AIを使わないと求人に応募できないのでは」

JetBrains 2025調査で68%の開発者が「AI熟練度は職務要件になる」と予想している9。この予想自体は正しい可能性が高い。ただし「AI熟練度」の定義が揺れている段階だ。

「概念質問でAIを使いこなす」「AI出力を批判的にレビューする」「AIが間違えたときに修正できる」——これらも立派なAI熟練度であり、手書きベースの訓練がむしろこれらを伸ばす。手書きは反AIではなく、AIを正しく使うための前提と捉えるのが正しい。

まとめ——5年後の自分への投資として

データは冷静に読めば一貫している。Anthropic RCTの17ポイント、ICER 2024の”illusion of competence”、Gerlichの批判的思考との負の相関、奈良高専の追試——AI支援下の学習劣化は、複数の独立した研究で繰り返し確認されている。逆方向の視点を論じたAIは「スキルの均等化装置」であると合わせて読めば、「いつ・どこで効くのか」の境界が見えてくる。

生産性重視ガイドが提示する「AIを上手く使えば速い」という事実と、本記事が提示する「AIを使いすぎると理解が浅くなる」という事実は、矛盾しない。両方とも真実だ。分かれ目は何を最適化するかにある。

若手の数年は、複利で効く資産を積む期間だ。短期の生産性を少し犠牲にしても、デバッグ力・読解力・設計力を手書きで鍛えておけば、5年後に「AIが出したコードを信用できる本物のエンジニア」になれる。自分でコードを書くことは愚かな行為ではない。AI時代にこそ、最も賢い長期投資だ。

対をなす生産性重視ガイドは、短期成果を最適化する場合の方法を提示している。トレードオフ全体整理も含め、自分のキャリア段階で読み分けてほしい。

脚注

  1. Demirer, M., Cui, Z., Musolff, L., Jaffe, S., Peng, S., & Salz, T. (2024). “The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers.” SSRN Working Paper ID 4945566. 記事版: MIT Sloan, 2024年11月4日。経験の浅い開発者で+27〜39%、経験豊富で+8〜13%。 ↩︎ ↩︎2

  2. Shen, J. H., & Tamkin, A. (2026). “How AI assistance impacts the formation of coding skills.” Anthropic, 2026年1月29日公開。52名(主にジュニア)、新規Pythonライブラリ(Trio)学習RCT。クイズスコアAI群50% vs 手書き群67%(Cohen’s d=0.738、p=0.01)。デバッグで差最大。クラスター分析で高成績群は「conceptual inquiry only」型、低成績群は「code delegation」型。https://www.anthropic.com/research/AI-assistance-coding-skills、論文版 arXiv:2601.20245 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7

  3. Prather, J., et al. (2024). “The Widening Gap: The Benefits and Harms of Generative AI for Novice Programmers.” ICER ‘24. 21名の学生の観察+アイトラッキング研究。”illusion of competence”と複数のメタ認知困難(中断・誤誘導・偽の進捗感)を報告。https://arxiv.org/abs/2405.17739 ↩︎ ↩︎2 ↩︎3

  4. Karpicke, J. D., & Roediger, H. L. (2008). “The Critical Importance of Retrieval for Learning.” Science, 319(5865), 966–968. DOI: 10.1126/science.1152408。再読より検索練習のほうが長期保持に優れることを示した古典研究。 ↩︎

  5. 川村達矢・内田眞司. (2025). “生成AIによるプログラミングが学習効果に与える影響.” 奈良工業高等専門学校. AI群は課題時間短縮・ばらつき小さいが理解度テストに有意差なし。https://www.jsise.org/wp-content/uploads/2025/02/2024_kansai_p09.pdf ↩︎

  6. Bjork, E. L., & Bjork, R. A. (2011). “Making Things Hard on Yourself, But in a Good Way: Creating Desirable Difficulties to Enhance Learning.” UCLA Bjork Learning and Forgetting Lab. https://bjorklab.psych.ucla.edu/wp-content/uploads/sites/13/2016/04/EBjork_RBjork_2011.pdf ↩︎

  7. Gerlich, M. (2025). “AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking.” Societies, 15(1), 6. 666名対象。AI利用と認知的オフロード r=+0.72、オフロードと批判的思考 r=−0.75。若年層ほどAI依存が高く批判的思考スコアが低い。https://www.mdpi.com/2075-4698/15/1/6。Table 4に関する訂正が2025年9月に Societies 15(9), 252 として出ているが、著者は主要な科学的結論は不変と表明。 ↩︎

  8. Stack Overflow. (2025). “2025 Developer Survey.” 全体84%がAI使用/使用予定、信頼度は60%(2023-24年から急落)。https://survey.stackoverflow.co/2025/ai ↩︎

  9. JetBrains. (2025). “The State of Developer Ecosystem 2025.” 24,534名対象、194カ国。68%が「AI熟練度は職務要件になる」と予想。https://devecosystem-2025.jetbrains.com/artificial-intelligence ↩︎

This post is licensed under CC BY 4.0 by the author.