Post
JA EN

「あなたは専門家です」は逆効果?——AIへの役割指定、使い分けの実践ガイド

「あなたは専門家です」は逆効果?——AIへの役割指定、使い分けの実践ガイド
  • 想定読者: AIツール(ChatGPT、Claude、Gemini等)を使うエンジニア・ビジネスパーソン
  • 前提知識: LLMの基本的な使用経験
  • 所要時間: 8分

概要

「あなたはシニアエンジニアです」「You are an expert in Python」——AIに役割を与えてから質問する。多くの人が当たり前のようにやっているこのテクニックを、ペルソナプロンプティングと呼ぶ。OpenAI、Google、Anthropicの公式ガイドでも推奨されており、プロンプトの定番テクニックとして定着している。

ところが2025〜2026年の複数の研究で、このテクニックに意外な落とし穴があることがわかった。専門家の役割を指定すると返答のトーンは洗練されるが、事実の正確さはむしろ下がるのだ12

これはAIが「専門家らしく振る舞うこと」に処理リソースを使い、「正確に思い出すこと」に使えるリソースが減るためだ2。面接で「自信のある話し方」を意識しすぎて、回答内容が薄くなるのと似ている。

ただし、ペルソナ指定はすべてダメというわけではない。返答の「正確さ」が必要か、「形式」が必要かで使い分けるのが正解だ。本記事では、研究が示す使い分けのポイントを実例つきで紹介する。

研究が示した事実:精度は上がらず、トーンだけが変わる

2025年末、Wharton(UPenn)の研究チームが6つのAIモデルを対象に、「専門家ペルソナあり」と「ペルソナなし」で計12,000回以上の比較実験を行った1

結果はシンプルだった。

ペルソナの種類事実精度への影響
専門分野と一致(物理の問題に「物理の専門家」)変化なし
専門分野と不一致(法律の問題に「物理の専門家」)低下
低知識ペルソナ(素人、子ども)一貫して低下

「あなたは専門家です」と指定しても、回答が正確になるわけではない。専門分野がズレていると、むしろ精度が下がる。

2026年3月のUSC研究では、このトレードオフがさらに具体的な数値で示された2

測定項目ペルソナなし短いペルソナ詳細なペルソナ
知識の正確さ(MMLU)71.6%68.0%(-3.666.3%(-5.3
返答トーンの品質基準改善さらに改善
安全性(危険な質問の拒否)基準+17.7ポイント

つまり、ペルソナを指定すると「話し方」は良くなるが「中身の正しさ」は犠牲になる

さらに重要な発見がある。ペルソナの説明が長いほど、精度は大きく下がる2。「あなたはエンジニアです」程度なら軽い影響だが、「あなたは10年以上の経験を持つシニアバックエンドエンジニアで、分散システムに精通し……」と詳しく書くほど、正確さは失われていく。

なぜ精度が下がるのか

理由はシンプルだ。AIの中で2つの処理がリソースを奪い合う2

flowchart TB
    Q["ユーザーの質問"]
    
    Q --> M1
    Q --> M2

    M1["🔍 知識を思い出す処理<br>事前学習の知識を検索"]
    M2["📋 役割を演じる処理<br>ペルソナの指示に従う"]

    M1 --> R1["正確な回答"]
    M2 --> R2["洗練されたトーン"]

    R1 --> C["⚡ 同じリソースを奪い合う<br>→ 両立が難しい"]
    R2 --> C

ペルソナ指定がないとき、AIは「知識を正確に思い出す」ことに集中できる。しかし「専門家として振る舞え」と指示すると、その演技にリソースを割くぶん、正確な知識の想起が圧迫される。

これは2024年のVanderbilt大学の研究(4,000以上のタスクで検証)でも確認されている。事実を問うタスクではペルソナの効果はほぼゼロ。一方、アドバイスやブレストのようなオープンなタスクではスコアが改善した3

使い分けの実践ガイド

ここまでの研究が示す結論は明快だ。「何を答えるか」が大事ならペルソナなし、「どう答えるか」が大事ならペルソナあり

flowchart TB
    Q["AIにタスクを依頼するとき"]
    Q --> D{"求めるのは?"}

    D -->|"正確な中身"| A["✅ ペルソナなし"]
    D -->|"適切な表現・形式"| B["✅ ペルソナあり"]

    A --> A1["バグ調査<br>技術Q&A"]
    A --> A2["コード生成<br>データ分析"]

    B --> B1["ドキュメント作成<br>メール・チャット"]
    B --> B2["レビューコメント<br>プレゼン資料"]

正確さが欲しいとき → ペルソナなし

バグ調査、コード生成、技術的な質問、データ分析など——答えが正しいかどうかが重要なタスクでは、役割指定を省いてタスクの要件だけを書く。

1
2
3
4
5
6
7
8
❌ 避けるべき:
「あなたはKubernetesの専門家です。
 以下のエラーログを分析して原因を特定してください。」

✅ 推奨:
「以下のKubernetesエラーログを分析して原因を特定してください。
 Pod名、Namespace、エラーメッセージを確認し、
 考えられる原因を可能性の高い順にリストしてください。」

違いは、「あなたは専門家です」の代わりに具体的な分析手順を書いている点だ。役割を指定する代わりに、やるべきことを具体的に伝えたほうが、AIは正確に動く。

USC研究の著者も明言している。「事実精度が必要なら、何も付けずにクエリだけ送れ」2

表現・形式が欲しいとき → ペルソナあり

ドキュメント作成、メールの文面、コードレビューのコメントなど——「何を伝えるか」より「どう伝えるか」が重要なタスクでは、ペルソナが力を発揮する。

1
2
3
4
5
6
7
8
✅ ペルソナが有効:
「あなたはテクニカルライターです。
 以下のAPI仕様を、初心者向けのチュートリアル形式で
 書き直してください。」

✅ ペルソナが有効:
「あなたは経験豊富なコードレビュアーです。
 建設的で教育的なトーンでフィードバックを書いてください。」

ここでの目的は「正しい答え」ではなく「適切な伝え方」だから、トーンの改善効果が精度低下のコストを上回る。

両方欲しいとき → 2段階アプローチ

正確さも表現も両方欲しい場合は、2段階に分けるのが効果的だ。

1
2
3
4
5
6
7
8
ステップ1(ペルソナなし):
「PostgreSQLでN+1問題を解消する方法を3つ挙げ、
 それぞれのメリット・デメリットを説明してください。」

ステップ2(ペルソナあり):
「あなたはテックブログの著者です。
 上記の内容を、チーム内の勉強会で使えるよう
 わかりやすい文体でリライトしてください。」

まず正確な情報を引き出し、次にそれを適切な形式に変換する。こうすれば精度とトーンの両立ができる。

一覧表

タスクペルソナ理由
バグ調査・デバッグなし正確な原因特定が最優先
コード生成なし正しく動くコードが最優先
技術的Q&Aなし事実の正確さが最優先
数学・計算なし正確な計算結果が最優先
ドキュメント作成ありトーン・読みやすさが重要
メール・メッセージあり適切な文体が重要
コードレビュー文あり建設的なトーンが重要
ブレスト・アイデア出しあり視点の多様性が有益

話し方や人格の指定も影響する?

「フレンドリーに話して」「関西弁で答えて」「猫のキャラクターで」——こういった指定はどうだろうか。

研究が直接検証したのは「あなたは専門家です」タイプのペルソナだが、原理は同じと考えられる。AIが話し方や人格を維持するためにリソースを使えば、正確に答えるためのリソースはその分減る2

ただし、いくつか補足がある。

  • 短い指定なら影響は小さい可能性がある。「フレンドリーに」程度の一言なら、長い専門家ペルソナほどの影響はないかもしれない
  • 話し方の指定を直接検証した研究はまだない。上記は研究メカニズムからの類推である
  • 影響の大きさはペルソナの種類で変わりうる。専門家ペルソナは知識の想起と直接競合するが、話し方の指定はより浅い処理層で済む可能性もある

結論としては、正確さが重要な場面では話し方の指定も控えめにしておくのが安全だ。雑談やクリエイティブなやり取りなら、好きなだけキャラ設定して問題ない。

まとめ

「あなたは専門家です」と指示すると、AIの返答は洗練されるが、正確さは下がる。3つの独立した研究が、この事実を支持している123

使い分けのルールはシンプルだ。

  • 正確な答えが欲しいとき → ペルソナを省き、タスクの要件を具体的に書く
  • 適切な表現が欲しいとき → ペルソナを使い、ただし簡潔にする
  • 両方欲しいとき → まずペルソナなしで正確な回答を得て、次にペルソナ付きで文体を調整する

この記事で紹介した研究の詳細(実験デザイン、メカニズムの詳細、公式ガイドとの矛盾の分析など)については、姉妹記事「ペルソナプロンプティングの科学的検証——3つの研究が示すメカニズムと限界」で掘り下げています。

関連記事

このテーマに関連する他の記事もご覧ください:

参考資料

本文中の引用番号に対応する参考資料を番号順に記載しています。

その他参考資料(本文中で番号引用なし)

  1. Playing Pretend: Expert Personas Don’t Improve Factual Accuracy - Basil, Shapiro, Shapiro, Mollick, Mollick, Meincke / Wharton GAIL, University of Pennsylvania (2025). arXiv:2512.05858. 6モデル、GPQA Diamond 198問+MMLU-Pro 300問、各条件25試行。【信頼性: 中〜高】プレプリント(arXiv)だが、大規模な実験デザインと複数モデルでの再現性あり ↩︎ ↩︎2 ↩︎3

  2. Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM - Hu, Rostami, Thomason / University of Southern California (2026). arXiv:2603.18507. 6モデル、MMLU・MT-Bench・HarmBench等で検証。【信頼性: 中〜高】プレプリント(arXiv)だが、メカニズムの説明とPRISMソリューションの提案を含む包括的研究 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7 ↩︎8

  3. Evaluating Persona Prompting for Question Answering Tasks - Olea, Tucker, Phelan, Pattison, Zhang, Lieb, Schmidt, White / Vanderbilt University (2024). 4,000以上のQAタスクでGPT-3.5・GPT-4を検証。【信頼性: 中〜高】 ↩︎ ↩︎2

This post is licensed under CC BY 4.0 by the author.