Post
JA EN

AIは個人の創造性を高め、集団の多様性を殺す——創造的均質化のパラドックス

AIは個人の創造性を高め、集団の多様性を殺す——創造的均質化のパラドックス
  • 想定読者: AIツールを日常的に使用しているソフトウェアエンジニア
  • 前提知識: GitHub Copilot、ChatGPT、Claude等のAIツールの基本的な使用経験
  • 所要時間: 20分

概要

生成AIが「個人の創造性を高めるが、集団の多様性を減らす」というパラドックスを、複数の査読済み研究に基づいて検証する。Science Advances誌に掲載されたDoshi & Hauser(2024)の実験では、AIの支援を受けた参加者の作品は個々には高く評価されたが、作品同士の類似度が上昇した。さらに、AIを外した後も創造性が元の水準に回復しない「創造的瘢痕(creative scar)」という現象も報告されている。本記事では、これらの研究知見をソフトウェア開発の文脈に照らしながら、AIとの共創における多様性維持の課題を考察する。

なお、この記事自体がAIによって生成されている。記事の主張する「AIが生む均質化」の当事者として読んでいただくことで、パラドックスの実感が深まるかもしれない。

AIで「上手く」なった文章が、みんな同じになる問題

生成AIの普及により、「誰でもそれなりの品質の文章やコードが書ける」時代が到来した。GitHub Copilotは補完を提案し、ChatGPTは文章の下書きを生成し、Claude Codeはコードベース全体を理解した上で実装を提案する。

しかし、個々の品質が上がる一方で、 全体の多様性が失われている という研究結果が複数の独立した研究グループから報告されている。これは直感に反する現象だ。「全員が上手くなる」ことと「全員が似たものを作る」ことは、なぜ同時に起きるのか。

Science Advances掲載研究——個人は向上し、集団は均質化する

研究の設計

Doshi & Hauser(2024)は、Science Advances誌に掲載された実験研究で、この問題を直接的に検証した1

実験の概要:

項目詳細
参加者293名(500名から選別)
評価者600名(計3,519件の評価)
タスク8文のショートストーリー執筆
テーマ「大海原」「ジャングル」「異なる惑星」
対象読者ティーンエイジャー / ヤングアダルト

参加者は以下の3群にランダムに割り当てられた:

  1. 人間のみ(対照群)
  2. AIのアイデア1つ を参照可能
  3. AIのアイデア最大5つ を参照可能

主要な発見

結果は明確なパラドックスを示した:

個人レベルの向上:

  • AIのアイデアを5つ参照できた群では、新規性が 8.1% 、有用性が 9.0% 向上
  • 元々の創造性が低い参加者で効果が大きく、新規性が 10.7% 、有用性が 11.5% 向上
  • 文章の質、楽しさ、プロットのひねりも改善

集団レベルの均質化:

  • AI支援群の作品同士は、人間のみの群に比べて互いに類似度が高かった
  • AI支援群の作品は、AIが生成した元のアイデアとの類似度が 5.2% 高かった
flowchart TB
    AI["生成AIのアイデア提供"]
    IND["個人の創造性<br>新規性 +8.1%<br>有用性 +9.0%"]
    COL["集団の多様性<br>作品間の類似度 上昇<br>AIアイデアとの類似度 +5.2%"]
    AI --> IND
    AI --> COL

    classDef upStyle stroke:#2ea44f,stroke-width:3px
    classDef downStyle stroke:#d29922,stroke-width:3px
    class IND upStyle
    class COL downStyle

この研究の限界

この研究にはいくつかの重要な限界がある。まず、タスクが「8文のショートストーリー」に限られており、長編の執筆やソフトウェア開発のような複雑な創造的活動への一般化は慎重に行う必要がある。また、参加者はAIのアイデアを「参照」しただけであり、リアルタイムのAI対話(現在のCopilotやCursorのような使い方)とは異なる。さらに、金銭的インセンティブの影響や長期的な効果は検証されていない1

均質化のメカニズム——なぜAIは「似たもの」を生むのか

LLMの構造的傾向

均質化の根本原因は、LLMの学習構造にある。LLMは訓練データにおける最も確率の高いトークン列を生成する傾向があり、同じプロンプトに対して類似した出力を生成しやすい。

PNASに掲載されたMicrosoft Researchによる研究は、この現象を定量的に実証した2。GPT-4とLLaMA-3に100の短編ストーリーを生成させたところ、LLMが生成したストーリーには 同じプロット要素が繰り返し出現 していた。

具体例が印象的だ。Franz Kafkaの「Give It Up!」の続きを100回生成させたところ:

  • 100回中 50回 で、警官が「2つ目の角を左に曲がれ」と指示
  • 100回中 18回 で、「2つ目の角を右に曲がれ」と指示
  • 100回中 16回 で、目印として「パン屋」が言及された

人間の作家100人が同じ課題に取り組んだ場合、これほどの収束は起きない。研究チームはこの多様性の欠如を測定するため「Sui Generis Score(固有性スコア)」を提案し、LLMの出力が人間の創作に比べて有意に低い固有性を持つことを示した2

アンカリング効果による伝播

LLMの均質性は、人間のAI利用を通じて社会全体に伝播する。認知科学で知られる アンカリング効果 がその媒介メカニズムだ。

人間は最初に見た情報に引きずられやすい。AIが「80点の回答」を最初に提示すると、人間はそこを起点に思考する。結果として:

  1. AIが確率的に「最適解」付近に収束した出力を生成する
  2. 人間がそれを見て、その近傍で思考する(アンカリング)
  3. 人間の修正は元のAI出力から大きく離れない
  4. 異なるユーザーが同じAIを使うことで、類似した出力が量産される

Creativity & Cognition 2024で発表された研究も、LLMへの曝露が人間の創造的アイデア生成を均質化させることを報告している3

ソフトウェア開発における具体例

エンジニアであれば、以下のような場面に心当たりがあるかもしれない:

  • GitHub Copilotが提案するコードパターンが、どのプロジェクトでも似ている
  • AIに「このAPIの設計を考えて」と頼むと、RESTful + CRUD + JWT認証という「標準的なパターン」が返ってくる
  • 複数のチームが独立にAIを使って設計した結果、似たようなアーキテクチャに収束する

これらは必ずしも悪いことではない。標準パターンへの収束は、保守性やチーム間の一貫性にとってはプラスだ。しかし、 革新的な設計が生まれにくくなる というコストも存在する。

「創造的瘢痕」——AIを外しても戻らない創造力

「瘢痕」とは何か

均質化よりもさらに懸念される発見が、Zhou, Liu, Huang, & Li(2025)の研究で報告された「創造的瘢痕(creative scar)」という現象だ4

「瘢痕」とは、傷が治った後に残る跡を意味する。この研究が示したのは、AIを使った後にAIを外しても、創造性が元の水準に戻らないという現象だ。

研究の設計

この研究は2つのStudyで構成されている:

項目Study 1(自然実験)Study 2(統制実験)
デザイン自然実験7日間の統制実験 + フォローアップ
参加者大規模61名の大学生
フォローアップなし30日後、60日後
アイデア数—-3,593件のオリジナルアイデア、427件の解決策(18種の創造的タスク)

Study 2では、参加者の半数がChatGPT-4を7日間使用した後、AIなしでの創造的タスクに取り組んだ。

主要な発見

結果は3つの重要なパターンを示した:

  1. AI使用中:創造的パフォーマンスが向上(個人レベルの改善)
  2. AI撤去直後:創造性が顕著に低下し、元の水準に回復しなかった
  3. 30日後・60日後:均質性(作品間の類似度)はAI撤去後も上昇し続けた

研究チームはこれを 「創造性の幻想(creativity illusion)」 と呼んでいる。AIは創造的パフォーマンスを一時的に高めるが、人間が創造する「能力」を育てているわけではない。むしろ、AI依存を形成し、撤去後にはAI使用前よりも創造性が低下するリスクがある4

この研究の限界

この発見は重要だが、いくつかの限界を認識する必要がある。Study 2のサンプルサイズは61名と小規模であり、大学生に限られている。7日間のAI使用が長期的な「瘢痕」を残すかどうかについては、60日後のフォローアップがあるとはいえ、数ヶ月から数年のスパンでの検証は行われていない。また、創造的タスクの種類(アイデア生成課題)がソフトウェア設計のような複雑な創造活動にどの程度一般化できるかも不明だ。

筋力低下のアナロジーとその限界

「創造的瘢痕」は、 筋トレをやめた後の筋力低下(廃用性萎縮) に似ている。使わない筋肉が衰えるように、AIに創造的思考を委ねることで、自力で発想する力が衰えるおそれがある。

ただし、このアナロジーには限界がある。筋力は再トレーニングで回復するが、創造的スキルの回復可能性についてはまだ研究が不足している。上記の研究で60日後も均質性が上昇し続けていた点は、単純な「休んだから衰えた」以上の構造的変化を示唆しているかもしれない。

補強的エビデンス——複数の研究が描く一貫したパターン

均質化と創造的瘢痕の問題は、上記の研究だけでなく、複数の独立した研究で類似の傾向が報告されている。

Medeiros et al.(2025)は、ChatGPTの出力に曝露された後に発散的思考タスク(Divergent Association Task)を行う実験を実施した5。結果として、AIの出力がプライミング効果を通じて人間の発散的思考を向上させるというエビデンスは見つからなかった。むしろ、低い創造性のAI出力を見せられた群ではスコアが低下した。AIが人間の創造性を自動的に底上げするわけではないことを示す、慎重な知見だ。

また、PMCに掲載された2025年のレビュー研究は、生成AIが創造性を多次元的に再構築しつつあることを指摘し、均質化リスクについても言及している6

これらの知見を総合すると、 「AIは個人を助けるが集団を均質化させ、しかもその影響はAIを外しても残る」 という一貫したパターンが浮かび上がる。ただし、各研究はそれぞれ異なる条件・タスク・サンプルで実施されており、効果の大きさや持続期間については研究間でばらつきがある。この分野はまだ発展途上であり、確定的な結論を出すには追加の研究が必要だ。

ソフトウェア開発への示唆——コードの均質化は起きているか

注意すべき前提

ここまで紹介した研究の多くは、ショートストーリーやアイデア生成といった課題を対象としている。ソフトウェア開発は、これらの課題とは質的に異なる面がある:

  • コードには「正解」に近いパターンが存在する(特にボイラープレートやCRUD操作)
  • 再利用性や保守性の観点から、ある程度の標準化はむしろ望ましい
  • 創造性が要求される場面(アーキテクチャ設計、問題分解、アルゴリズム選択)は限定的だ

したがって、以下の考察はソフトウェア開発への 推測的な適用 であり、直接的なエビデンスに基づくものではないことを明記しておく。

均質化が問題になる場面とならない場面

ソフトウェア開発における均質化を考えると、すべてが問題になるわけではない:

均質化が望ましい場面:

  • ボイラープレートコードの生成
  • テストケースのパターン
  • エラーハンドリングのベストプラクティス
  • ログ出力のフォーマット

均質化が問題になりうる場面:

  • システムアーキテクチャの設計
  • 技術選定における代替案の探索
  • パフォーマンス最適化のアプローチ
  • ユーザー体験に関わるインタラクション設計

前者は「正解」が比較的明確であり、AIによる標準化は品質の底上げとして機能する。後者は、問題の構造そのものを再定義する創造性が求められ、AIの提案をそのまま採用することが「局所最適」に陥るリスクを伴う。

「80点のアーキテクチャ」の罠

AIに「マイクロサービスアーキテクチャを設計して」と依頼すると、ほぼ確実に「標準的な」回答が返ってくる。API Gateway、サービスメッシュ、イベント駆動、CQRSパターン——これらの組み合わせは「80点のアーキテクチャ」として多くの場面で十分に機能する。

問題は、この「80点」が全員の出発点になることだ。Doshi & Hauserの研究が示したように、AIのアイデアを出発点にすると、そこからの逸脱が少なくなる1。全員が同じ「80点」から出発すると、最終的なアーキテクチャも互いに似通ったものになりやすい。

ある種のプロジェクトではそれで十分だ。しかし、競争優位が設計の独自性に依存する場合——たとえば、スケーラビリティの限界を押し広げる必要がある場合や、ドメイン固有の制約を創造的に解決する必要がある場合——「標準的な80点」は出発点として適切でない可能性がある。

考察——底上げと均質化のトレードオフにどう向き合うか

「80点の文章が量産される世界」の価値

均質化を単純に「悪いこと」と断じることはできない。多くの場面で、80点の品質は十分に実用的だ。

ビジネスメールの文面、定型的なドキュメント、ボイラープレートコード——これらの品質が底上げされることで、全体の生産性は向上する。特に、元々の創造性が低い(研究の文脈では「ベースラインの創造性スコアが低い」)領域でのAI支援は、Doshi & Hauserの研究が示す通り、個人にとって大きな恩恵をもたらす1

問題は、 すべての創造的活動に同じアプローチを適用したとき に生じる。均質化のコストは、独自性に価値がある活動——新製品の構想、革新的なアーキテクチャの設計、研究のアイデア出し——において顕在化する。

創造性の価値軸のシフト

研究が示唆するのは、AIの普及によって創造性の評価軸が変わる可能性だ。

AIが「質の高い標準的な出力」を量産できる世界では、 「質」だけでは差別化できなくなる 。代わりに、 「独自性」 ——他の誰も(AIも含めて)思いつかないアプローチ——の価値が相対的に上昇する。

これはソフトウェアエンジニアにとって実践的な含意がある。AIが「80点の実装」を即座に提供できる時代に、エンジニアの価値は「80点を速く書けること」ではなく、「AIが到達しない100点の方向を見定められること」にシフトしていくだろう。

AIの使い方を再考する——3つのアプローチ

研究知見を踏まえると、均質化リスクに対処するための実践的なアプローチがいくつか考えられる。ただし、これらの効果は厳密に検証されたものではなく、研究からの推論に基づく提案であることに留意してほしい。

1. AIを「初稿生成者」ではなく「批評者」として使う

均質化は、AIの出力を出発点にすることで生じる。逆に、 人間がまず自力でアイデアを出し、AIに批評させる というワークフローでは、人間の独自性が出発点として保持される。

1
2
3
4
5
【均質化リスクが高いワークフロー】
AIに「設計して」→ AIの出力を修正 → 最終成果

【均質化リスクが低いワークフロー】
人間がまず設計 → AIに「この設計の問題点は?」→ 人間が判断して修正

このアプローチは、制約が創造性を高めるという研究知見とも整合する。自分で考えるという「制約」が、創造的思考を活性化させる7

2. 意図的にAIの提案を拒否する

アンカリング効果の研究が示すように、AIの最初の提案が思考の範囲を制限する。これに対抗するには、 意図的にAIの最初の提案を無視し、異なる方向性を模索する ことが有効かもしれない。

たとえば、アーキテクチャ設計において:

  1. AIに最初の案を出させる
  2. その案を 明示的に「使わない案」 として設定する
  3. AIに「この案と全く異なるアプローチを3つ提案して」と依頼する
  4. 人間が4つの案(最初の案を含む)を比較して判断する

これは、George & Wiley(2020)が示した「避けるべき例を提示すると独創性が向上する」という知見に着想を得たアプローチだ7

3. 「自分のアイデアが先」のルールを設ける

創造的瘢痕の研究が示唆するのは、AIへの依存が創造的スキルの廃用性萎縮を招くリスクだ4。このリスクに対処する鍵は、 AIの出力に触れる前に自分の発想を固める ことだ。

エンジニアリングの文脈では:

  • 設計レビューの最初の段階ではAIを使わず、人間だけでブレインストーミングする
  • 新しい問題に遭遇したとき、AIに聞く前に自分で10分間アイデアを書き出す
  • チーム内で「AIの提案を見る前に各自の案を持ち寄る」ルールを設ける

これにより、AIのアンカリング効果を回避し、出発点の多様性を確保できる。ただし、この方法の効果を直接検証した研究はまだない。

まとめ

複数の独立した研究が、AIと創造性をめぐる一貫したパラドックスを描き出している。

確立されつつある知見:

  • AIは個人の創造的パフォーマンスを向上させる(特にベースラインが低い人で効果が大きい)1
  • AI支援を受けた成果物は、互いに類似度が高くなる(集団の均質化)123
  • LLMは構造的に多様性が低い出力を生成する傾向がある2

示唆的だが追加検証が必要な知見:

  • AI使用後にAIを外しても、創造性が元の水準に回復しない可能性がある(創造的瘢痕)4
  • 均質性はAI撤去後も上昇し続ける可能性がある4

未解明の問い:

  • ソフトウェア開発のような複雑な創造活動でも同じパターンが生じるか
  • 創造的瘢痕は回復可能か、またその条件は何か
  • AIの使い方によって均質化を防げるか

この記事自体が、「AIによる均質化」のサンプルの一つかもしれない。AI生成の記事がどれも似たような構成で、似たような結論に達するとしたら、それはまさに本記事が指摘するパラドックスの実例だ。読者には、この記事の内容を鵜呑みにせず、 自分自身の経験と照らし合わせて 批判的に評価してほしい。

問われているのは、「AIを使うかどうか」ではない。AIの恩恵を享受しながら、 自分の声(voice)をどう保つか だ。そのためには、AIが提示する「80点の最適解」に安住せず、意識的に「自分にしかない視点」を追求する努力が求められる。

関連記事

このテーマに関連する他の記事もご覧ください:

参考資料

本文中の引用番号に対応する参考資料を番号順に記載しています。

その他参考資料(本文中で番号引用なし)

  1. Generative AI enhances individual creativity but reduces the collective diversity of novel content - Doshi, A. R., & Hauser, O. P. Science Advances, 10(28) (2024). n=293(執筆者)+ 600(評価者), ランダム化比較実験, 査読済み. 【信頼性: 高】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6

  2. Echoes in AI: Quantifying lack of plot diversity in LLM outputs - Microsoft Research. Proceedings of the National Academy of Sciences (PNAS) (2025). GPT-4およびLLaMA-3による100件のストーリー生成の定量分析, 査読済み. 【信頼性: 高】 ↩︎ ↩︎2 ↩︎3 ↩︎4

  3. Homogenization Effects of Large Language Models on Human Creative Ideation - Proceedings of the 16th Conference on Creativity & Cognition (2024). LLMへの曝露が人間の創造的アイデア生成に与える均質化効果を検証, 査読済み会議論文. 【信頼性: 高】 ↩︎ ↩︎2

  4. Creative scar without generative AI: Individual creativity fails to sustain while homogeneity keeps climbing - Zhou, Y., Liu, Q., Huang, J., & Li, G. Technology in Society (2025). Study 1: 自然実験, Study 2: n=61, 7日間の統制実験 + 30日後・60日後フォローアップ, 査読済み. サンプルサイズが小さく、大学生に限られる点に注意. 【信頼性: 中〜高】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5

  5. Human-AI Co-Creativity: Does ChatGPT Make Us More Creative? - Medeiros, K. E. et al. The Journal of Creative Behavior (2025). ChatGPTのプライミング効果と発散的思考の関係を検証, 査読済み. 【信頼性: 高】 ↩︎

  6. Artificial Intelligence Reshapes Creativity: A Multidimensional Evaluation - Zhang, Shao, Yuan, & Shen. PsyCh Journal, 14(6), 831-840 (2025). AIが創造性を多次元的に再構築する過程のレビュー研究, 査読済み. 【信頼性: 高】 ↩︎

  7. Need something different? Here’s what’s been done: Effects of examples and task instructions on creative idea generation - George, T., & Wiley, J. Memory & Cognition, 48(2), 226-243 (2020). 「避けるべき例」の提示が独創性を向上させることを実験的に検証. 査読済み. 【信頼性: 高】 ↩︎ ↩︎2

This post is licensed under CC BY 4.0 by the author.