Post
JA EN

「やれ」より「出来る?」が効く条件、効かない条件——AIプロンプトの本当の軸は「正解一意か、解釈余地か」

「やれ」より「出来る?」が効く条件、効かない条件——AIプロンプトの本当の軸は「正解一意か、解釈余地か」
  • 想定読者: AIをコード生成・デバッグ・推論タスクで日常的に使うエンジニア(広くはビジネスパーソンも適用可)
  • 前提知識: LLMの基本的な使用経験
  • 所要時間: 12分

概要

人間に何かを頼むとき、「やれ」と命令するより「出来る?」「どう思う?」と質問するほうが、相手のパフォーマンスを引き出しやすい——心理学では繰り返し示されてきた現象だ。Deci & Ryanの自己決定理論(SDT)が示すように、命令的な圧力は自律性のニーズを侵害して内発的動機を減らし、学習・創造性・持続性を損なう1人間相手なら、多くの場面で質問形が一貫して優位だ。

では、相手がAIだったらどうなのか? 同じく「質問形のほうが効く」はずだ——直感的にはそう思える。実際、Claude/Codexにコードを書かせるエンジニアの体感報告では、命令形より相談形のほうが「めちゃくちゃ良いコード」が返ってくると言う2。OpenAIの公式GPT-5プロンプティングガイドも、強圧的な命令が逆効果になりうると明記している3

ところがデータを並べると、話はもっと複雑になる。2025年のarXiv論文「Mind Your Tone」では、無礼な命令形が丁寧な依頼形より精度で4ポイント上回ったという逆の結果が出ている4。Wharton(UPenn)の大規模実験では、Please vs I order youで個別質問の精度が最大60ポイント変動する一方、平均では相殺された5。人間で確立されている「質問形優位」の法則は、AIにはそのまま当てはまらない。

結論を先に言うと、AIに対しては「命令形 vs 質問形」は本質的な軸ではない。本当の軸は「そのタスクは正解が一意に決まるか、解釈の余地が大きいか」だ。正解一意なら命令形(短く、制約を明示)が効きやすい。解釈余地が大きいなら質問形(モデルに推論と仮定の可視化を許す)が効きやすい。Mind Your Toneで無礼な命令形が勝ったのは多肢選択の事実問題——正解一意タスクだったからだ4。コーディング体感で相談形が勝つのは、実装に複数の妥当解がある解釈余地タスクだからだ2

メカニズムレベルで見ると、命令形は「何が重要か」を人間が定義してモデルに渡し、Production Engine(再現性最適化)として動かす。質問形は「解釈と推論の余地」をモデルに渡し、Co-thinking System(協調思考)として動かす6どちらが優れているかではなく、タスクの性質に合うモードを起動する問題になる。ここがAIと人間の決定的な違いだ。重要用途ではA/Bテストで実測するのが唯一の正解だが、その前提となる軸を6つの一次ソースから検証していく。

出発点:人間で効くルールはAIにも効くのか?

人間相手では、「やれ」より「出来る?」が効くのは半ば自明だ。命令的な指示は短期の遵守は引き出せても、相手の自律性ニーズを侵害して内発的動機を毀損する——SDT研究が長年積み重ねてきた結論だ1。マネジメント、教育、コーチングのどの分野でも、自律性を支援する質問形のアプローチが学習成果や持続的なパフォーマンスを高めることが示されている。

では、相手をAIに置き換えたとき、同じ法則が成り立つのか。直感的には「成り立つ」と感じる人が多い。実際、エンジニアの実務報告にもそれを支持する話がある。あるエンジニアが、Claude/Codexにコードを書かせるときの体感を報告している2。原文では授業計画の例で、命令形「◯◯を作りなさい」「絶対に◯◯しなさい」と相談形「これってどう思う?」「◯◯について考えてもらえる?」「どうかな?」が対比されている2。これをコード生成に当てはめて再構成すると、典型的にはこういう違いになる。

命令形(再構成例):

1
2
3
○○の仕様でコードを作りなさい。
絶対に詳細に書くこと。
徹底的にエッジケースを潰すこと。

相談形(再構成例):

1
2
3
○○の仕様でコードを作ってもらえる?
ここはこう実装しようと思うんだけど、どうかな?
何か見落としてる観点ある?

報告されている体感は、相談形のほうが「めちゃくちゃ良いコード書いてくれたり、デバッグが良くなった気がします!」というもの2。実務系の解説でも同様の対比がよく出てくる7

プロンプトの形
命令形「マーケティング戦略を3つ出せ」
依頼形「当社の状況を踏まえて、効果的なマーケティング戦略を3つ提案していただけますか?各戦略について、期待される効果も添えてください」

ここまで読むと「やはり人間と同じで、AIも質問形・依頼形が優れている」と結論したくなる。ところが、人間ルールには当てはまらない逆方向の証拠もある。

2025年のarXiv論文「Mind Your Tone」では、GPT-4oに50問の基礎質問を5段階のトーン(Very Polite〜Very Rude)に書き換え、合計250プロンプトで多肢選択問題(数学・科学・歴史)の精度を測定した4

トーン精度
Very Polite80.8%
Very Rude84.8%

無礼な命令形のほうが4ポイント上回った。対応のあるサンプルのt検定で有意性が確認されている4。人間相手にこれをやれば、相手は萎縮するか反発してパフォーマンスは落ちる。AIには逆のことが起きている。

両者は矛盾しているように見える。だが視点を変えると、矛盾ではない——AIは人間とは違うルールで動いている、というだけだ。

本当の軸:正解一意か、解釈余地か

両方の証拠が同時に成立する理由は、タスクの性質が違うからだ。

  • けいすけの実例(コーディング) — 解釈余地が大きい。同じ仕様でも実装は何通りもありうる
  • Mind Your Toneの実験(多肢選択の事実問題) — 正解が一意。数学・科学・歴史の選択問題に「複数の妥当解」はない

この違いに、命令形と質問形が異なる影響を及ぼす理由が隠れている。

Donald Ngは2026年のSubstack記事で、これを認知アーキテクチャの問題として整理している6

Small language choices don’t change what a model knows. They change: how much interpretation it must perform, how visible its reasoning becomes, who is responsible for defining what matters

(小さな言葉の選択は、モデルが知っていることを変えるのではない。変えるのは、モデルがどれだけ解釈を行わなければならないか/その推論がどれだけ可視化されるか/何が重要かを誰が定義する責任を負うか、だ)

要点は、命令形と質問形がモデルに渡す「解釈責任」の量を変えることだ。

flowchart TB
    Q["ユーザー入力"]
    Q --> CMD["命令形<br>『要約せよ』"]
    Q --> QST["質問形<br>『要約してもらえる?』"]

    CMD --> CMD_R["人間が『何が重要か』を定義<br>モデルは制約を実行"]
    QST --> QST_R["モデルに解釈の余地<br>仮定・推論を可視化しやすい"]

    CMD_R --> P["Production Engine<br>効率・再現性を最適化"]
    QST_R --> CT["Co-thinking System<br>透明性・協調思考を優先"]

命令形はProduction Engine——効率と再現性に最適化されたモード6正解一意のタスクではこれが正解になる。多肢選択問題で無礼な命令形が勝ったのも、無駄な「解釈の余地」を作らずに、モデルを正解探索にまっすぐ向かわせるからと整合する。

質問形はCo-thinking System——推論の透明性と協調思考に最適化されたモード6。質問形だと、モデルは「more explanatory framing, more surfaced assumptions, more visible reasoning」(より多くの説明的フレーミング、より多くの仮定の表面化、より多くの可視化された推論)を返しやすくなる6解釈余地が大きいタスク——設計、デバッグ仮説、レビュー観点出し——ではこれが正解になる。

「礼儀」や「丁寧さ」が本質ではないことに注意したい。実務系解説が指摘するように、依頼形が機能するのは情報密度が増えるから7。「マーケティング戦略を3つ出せ」と「当社の状況を踏まえて、効果的なマーケティング戦略を3つ提案していただけますか?各戦略について、期待される効果も添えてください」の差は、礼儀ではなく評価軸と文脈が増えていることから来る。

軸を整理する:3つの独立変数

ここまでで、プロンプトには少なくとも3つの独立した変数があることが見えてくる。

内容主な効果
タスク軸正解一意 / 解釈余地どちらのモードを起動すべきかの根本決定
形の軸命令形 / 質問形モデルへの解釈責任の渡し方
強圧度の軸「徹底的に」「絶対に」等の強調語モデルの注意配分とバランス

「命令形 vs 質問形」だけを議論しても答えが揺れるのは、これらの変数が混じっているからだ。タスク軸を最初に決めて、形の軸はそれに合わせて選び、強圧度は別問題として扱う——というのが整理の順序になる。

強圧度については、OpenAIのGPT-5プロンプティングガイド自身が独立した警告を出している3。Cursorと共同で行ったプロンプト調整の事例では、初期段階でツール呼び出しの徹底性を引き出すために以下のような命令形が使われていた。

1
2
Be THOROUGH when gathering information.
Make sure you have the FULL picture before replying.

ところがGPT-5はすでに自然に内省的なため、この命令形がcounterproductive(逆効果)だった3。修正版では、強い命令を緩め、「Bias towards not asking the user for help if you can find the answer yourself」のような誘導形式に変更したところ、結果が改善した3

ここで重要なのは、「命令形だから」逆効果なのではなく、「強圧度が高すぎる」から逆効果だという点だ。命令形そのものは正解一意タスクで普通に機能する。問題は「徹底的に」「絶対に」「完全に」といった強調語が、最新モデルの注意配分を過剰に偏らせること。Mind Your Toneで勝ったのも「Very Rude」であって「Very Forceful」ではない——強圧度の軸とは独立した話だ。

残るノイズ:Whartonの「最大60ポイント、平均で相殺」

タスク軸で多くは説明できるが、それですべてが片付くわけでもない。

Wharton(UPenn)のMeinckeらは2025年のテクニカルレポートで、GPT-4oおよびGPT-4o-miniを難問データセットGPQA Diamondで評価した5。各質問について100回反復試行を行い、「Please」と「I order you」を含むプロンプトのバリエーションを比較した結果——

  • 個別の質問では、PleaseとI order youで精度が最大60ポイント上下に変動した
  • しかしデータセット全体の平均では、これらの差はほぼ相殺された5

GPQA Diamondは正解一意タスクなので、「正解一意なら命令形が効く」という単純な予測なら平均で命令形が勝つはずだ。だが平均では相殺される——つまり個別の質問とプロンプトの組み合わせには、タスク軸では説明しきれないノイズが残る

報告のタイトルそのものが結論を示している——「Prompt Engineering is Complicated and Contingent」(プロンプトエンジニアリングは複雑で文脈依存的だ)。

実務的な含意は明確だ。タスク軸を指針として使い、重要な用途では必ずA/Bテストで実測する。経験則だけで決めるには、変動が大きすぎる。

エンジニア向けの実践指針

ここまでの整理を、日常のAI利用にどう落とすか。

flowchart TB
    START["AIに何かさせたい"]
    START --> Q1{"正解は<br>一意に決まるか?"}
    Q1 -->|一意に決まる| CMD["命令形ベース<br>例:『この型シグネチャで関数を書け』<br>『JSONで返せ』<br>多肢選択の事実問題"]
    Q1 -->|解釈余地あり| QST["質問形ベース<br>例:『どう実装する?』<br>『他の案ある?』<br>『見落としてる観点は?』"]
    CMD --> SOFT{"強い修飾語<br>使ってないか?"}
    QST --> SOFT
    SOFT -->|『徹底的に』『絶対に』| WARN["最新モデルでは<br>逆効果リスク"]
    SOFT -->|控えめ| ABTEST["重要用途は<br>A/Bテストで検証"]
    WARN --> ABTEST

命令形が効きやすい場面(正解一意タスク)

  • 明確な仕様が決まったコード生成 — 「この型シグネチャで関数を書け」「このJSONスキーマで返せ」
  • 定型的な変換・抽出 — フォーマット変換、データ抽出、要約の型が決まっているケース
  • エージェント・本番自動化 — Production Engineとして動かすパイプライン
  • 事実を一意に問うクエリ — Mind Your Toneの多肢選択問題のような正解探索

ただし、強圧度は控えめに。OpenAIが示すように、最新モデルでは「徹底的に」「絶対に」が逆効果になりうる3

質問形が効きやすい場面(解釈余地タスク)

  • 設計の選択肢を広げたいとき — 「この設計、別案ある?」「トレードオフ何?」
  • デバッグの仮説立て — 「なぜこれが起きると思う?」「考えられる原因は?」
  • コードレビューの観点出し — 「見落としてそうな観点ある?」
  • 要件定義・仕様詰め — 「この仕様で漏れてる観点は?」

co-thinkingモードを起動するため、仮定や根拠を併せて出力するよう自然に促せる6

共通の前提

形を選ぶ前に、情報密度を確保することが本質だ7。前述のマーケティング戦略の例で依頼形のほうが質が上がるのは、礼儀ではなく評価軸(「効果的な」「期待される効果」)と文脈(「当社の状況」)が増えているから。命令形でも質問形でも、評価軸を明示することは独立して効く。

そして重要な用途ではA/Bテストで実測すること。Whartonが示したように、同じ質問でもプロンプトの形で精度が60ポイント変動しうる5。タスク軸はあくまで初期仮説で、最終判断は実測で。

賞味期限:モデルが変われば軸の効き方も変わる

ここまでの整理は、2026年時点の主要モデル(GPT-4o、GPT-5、Claude等)を前提にしている。だがこの知見はモデル世代に紐づいた賞味期限つきの結論だ。

具体的に、ここまで引いてきた根拠は次のように特定モデルに依存している。

知見検証モデル
Very Rude > Very Polite(4ポイント差)4GPT-4o
個別60ポイント変動・平均相殺5GPT-4o / GPT-4o-mini
「Be THOROUGH」が逆効果3GPT-5

OpenAI自身がCursor事例で示しているのは、GPT-4以前なら効いていたかもしれない強い命令形が、GPT-5では「すでに自然に内省的」だから逆効果になったという構図だ3。つまりモデル世代が変わると、同じプロンプトの効き方が反転しうる

次世代モデルでは、たとえば「強圧度に対する頑健性が上がって強い命令でも崩れない」かもしれないし、逆に「co-thinkingがデフォルト化して命令形でも質問形と同じように仮定を可視化する」かもしれない。あるいは「正解一意/解釈余地」の軸そのものが、モデルの推論能力向上で薄れていく可能性もある。

実用的な姿勢としては:

  • ここまでの指針は「2026年時点の初期仮説」と扱う — 数年後にも通用するルールとは思わない
  • 新モデルが出たら自分のタスクで再測定する — 過去の経験則をそのまま持ち越さない
  • モデル提供元の公式ガイドは必ずチェック — OpenAIがCursor事例で示したように、提供元自身が世代差を明示することがある
  • 手元に小さな評価セットを持っておく — 主要タスク10問程度で各モデルを比較できれば、軸の妥当性をすぐ確認できる

「これが正解」と固定せず、モデルが世代交代するたびに軸そのものを問い直す姿勢が、長期的にはコストが低い。

まとめ:「人間で効くものはAIにも効くか」への答え

冒頭の問いに戻る——「人間相手では質問形が一貫して効く。AIにも同じことが言えるのか?」

答えは 「部分的にyes、部分的にno」 だ。

対象効きやすい形
人間多くの場面で質問形優位(自律性支援が内発的動機を支える)1
AIタスク依存——正解一意なら命令形、解釈余地なら質問形

人間相手なら「質問形を使う」という単純なルールで多くの場面が片付く。だがAIには、もう一段の判断が要る——タスクが正解一意か解釈余地かを見極めて、形を合わせる。

6つのソースから見える指針をまとめると:

  • AIに対して「命令形 vs 質問形」は本質的な軸ではない。本当の軸は「正解一意か、解釈余地か
  • 正解一意なら命令形(Mind Your Toneで多肢選択は無礼な命令形が勝った4
  • 解釈余地ありなら質問形(コーディング・設計・デバッグでco-thinkingを起動26
  • 強圧度は別軸——最新モデルでは「徹底的に」が逆効果になりうる3
  • タスク軸で多くは説明できるがノイズは残る——重要用途はA/Bテスト必須5
  • モデルが世代交代すれば軸の効き方も変わる——ここまでの知見も賞味期限つき

プロンプトは「指示」ではなく「対話設計」である。ただし、その対話の作法は相手がAIか人間かで根本的に異なるし、モデル世代ごとに更新されていく。人間で確立されたルールをAIに持ち込むときも、その逆も、いったん立ち止まって「相手はどちらのルールで動いているか」を確認する——それが、長く効く姿勢になる。

関連記事

参考資料

  1. Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being - Ryan & Deci (2000), American Psychologist, 55(1), 68-78. DOI: 10.1037/0003-066X.55.1.68. 自律性・有能感・関係性の3つの基本的心理的ニーズが内発的動機を支えるという理論的枠組み。および Self-determination theory and work motivation - Gagné & Deci (2005), Journal of Organizational Behavior, 26(4), 331-362. DOI: 10.1002/job.322. 仕事の文脈で、外部からの命令的圧力が内発的動機を減少させることを実証。【信頼性: 高(査読論文、被引用多数)】 ↩︎ ↩︎2 ↩︎3

  2. 生成AIとの対話は “命令” じゃなくて “どうかな?” って聞いてください - けいすけ (2025). Claude/Codexでのコーディング実務報告。GPT-5 Prompting Guideを引用し命令形からの転換を提唱。【信頼性: 中(実務者ブログ、具体例豊富)】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6

  3. GPT-5 Prompting Guide - OpenAI (2025). Cursor事例で「Be THOROUGH」のような強い修飾語による命令が逆効果だったケースを紹介。”softening the language around thoroughness”(徹底性に関する言語を緩和)して結果が改善した事例を示す。【信頼性: 高(モデル提供元の公式ガイド)】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7 ↩︎8

  4. Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy - Dobariya & Kumar (2025). GPT-4oで50問×5トーン=250プロンプトを比較。Very Polite 80.8% vs Very Rude 84.8%。対応のあるt検定で有意性確認。【信頼性: 中(プレプリント、サンプル小、特定モデル・タスクに限定)】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6

  5. Prompt Engineering is Complicated and Contingent - Meincke et al., Wharton School (2025). GPT-4o/GPT-4o-mini × GPQA Diamond × 100反復試験。Please vs I order youで個別精度が最大60ポイント変動するが、平均では相殺。【信頼性: 中〜高(大学研究機関のテクニカルレポート、大規模反復試験)】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6

  6. Polite vs Command Prompts in LLMs: How Wording Changes AI Responses - Donald Ng (2026). 命令形と質問形が異なる認知アーキテクチャ(Production Engine vs Co-thinking System)を起動するという理論的整理。【信頼性: 中(専門家ブログ、理論的整理が中心)】 ↩︎ ↩︎2 ↩︎3 ↩︎4 ↩︎5 ↩︎6 ↩︎7

  7. 生成AIの回答精度が劇的に向上|期待通りの答えを得るプロンプトの書き方 - マイクロウェーブクリエイティブ (2025). 命令形と依頼形の対比、情報密度の観点。【信頼性: 中(実務系メディア記事)】 ↩︎ ↩︎2 ↩︎3

This post is licensed under CC BY 4.0 by the author.