エビデンスベース執筆のコスト構造——AIが短縮する100時間と、省略できない200時間
この記事はAIによって生成されています。内容の正確性は保証されず、記事の利用による損害について一切の責任を負いません。この記事を読み進めることで、利用規約に同意したものとみなされます。
- 想定読者: エビデンスベースの情報発信に興味があるエンジニア
- 前提知識: AIツール(ChatGPT、Claude等)の基本的な使用経験
- 所要時間: 17分
概要
「AIがあれば、論文を読めなくてもエビデンスベースの記事が書ける」——この期待は半分正しく、半分間違っている。
AIは学術論文の探索、読解、要約、引用文の生成を劇的に加速する。人間が100時間以上かけていた作業を数時間に圧縮できる。しかし、AIが生成した引用が正確か、その論文をこの文脈で引用して良いか、効果量の解釈は妥当か——こうした検証には、結局のところ人間側の論文リテラシーが必要になる。
本記事では、エビデンスベースの記事を書く実際のコスト構造を分解し、AIが短縮できる部分とできない部分を明確にする。そして、「100%正確でなければ使えない」という完璧主義を捨てることで、エビデンスがもっと身近になるという現実的な道筋を示す。
1本の記事にかかる実際のコスト
AIで書いた場合の実績
本ブログでは、AIを活用してエビデンスベースの記事を継続的に公開している。直近6記事の実績を集計した。
| 記事 | 行数 | 引用数 | mermaid図 | 推定作業時間 |
|---|---|---|---|---|
| VS Codeネイティブタブ | 259 | 7 | 0 | 20〜40分 |
| 日本のAI開発組織 | 371 | 25 | 3 | 30〜60分 |
| 教育と学習の科学 | 616 | 17 | 0 | 30〜60分 |
| Claude Codeスキル委譲 | 299 | 8 | 2 | 20〜40分 |
| METR研究の限界 | 287 | 9 | 2 | 20〜40分 |
| レビューの変革 | 346 | 12 | 4 | 25〜50分 |
6記事合計:推定2〜5時間(日英両版の作成を含む)
人間が同等品質で書いた場合の見積もり
同じ記事を、論文リテラシーのある人間が単独で書いた場合はどうか。
各工程の時間を分解する。
リサーチ工程
学術論文をエビデンスとして使うには、単にAbstractを読むだけでは足りない。
Tenopir & Kingの1977年からの縦断研究によれば、研究者が1本の論文を読む平均時間は31〜48分である1。しかしこれはその分野の専門家の数字だ。
Nelms & Segura-Totten(2019)の研究は、専門家と初学者の論文読解に決定的な差があることを示している2。専門家は複雑なスキーマ(知識の構造)を持ち、認知負荷理論で説明される通り、ワーキングメモリへの負荷を軽減できる。初学者は同じ論文を読むのに数倍の時間がかかり、しかも理解の深度が浅い。
引用する論文を「探す」段階を含めると、1本の引用を確定するまでに実際にかかる時間は:
| 工程 | 専門家 | 非専門家 |
|---|---|---|
| 論文探索(候補を5〜10本流し読み) | 30〜60分 | 1〜3時間 |
| 精読・理解 | 30〜60分 | 2〜4時間 |
| 引用文脈の判断 | 10〜20分 | 30〜60分 |
| 合計(1引用あたり) | 1〜2.5時間 | 3.5〜8時間 |
記事#2(日本のAI開発組織)の場合
引用25件、分野横断(経済政策、LLMアーキテクチャ、組織論、文化心理学):
| 工程 | 見積もり |
|---|---|
| 論文・レポート探索(候補50本以上を走査) | 8〜12時間 |
| 精読・理解(25件×1〜2時間) | 15〜25時間 |
| 構成・執筆(371行、25セクション) | 6〜10時間 |
| mermaid図3点の設計 | 1〜2時間 |
| 英語版の作成 | 3〜4時間 |
| 合計 | 33〜53時間 |
6記事合計
| 記事 | 人間の見積もり |
|---|---|
| VS Codeタブ(技術ドキュメント中心) | 5〜8時間 |
| 日本のAI開発組織(分野横断、25引用) | 33〜53時間 |
| 教育の科学(心理学メタ分析、616行) | 35〜57時間 |
| スキル委譲(技術ドキュメント中心) | 7〜12時間 |
| METR研究批評(研究方法論の理解必要) | 15〜25時間 |
| レビュー変革(CS学術論文+業界レポート) | 20〜32時間 |
| 合計 | 115〜187時間 |
コスト比較
flowchart TB
subgraph AI["AIパイプライン"]
direction TB
A1["6記事 × 日英両版"]
A2["合計 2〜5時間"]
A1 --> A2
end
subgraph Human["人間単独"]
direction TB
H1["6記事 × 日英両版"]
H2["合計 115〜187時間<br>(15〜24営業日)"]
H1 --> H2
end
AI --> Ratio["約30〜50倍の差"]
Human --> Ratio
概算では、AIパイプラインは人間単独の30〜50倍の速度でエビデンスベースの記事を生産できる。 (ただし、AI側は実作業時間の推定値、人間側は工数の見積もりであり、厳密な計測値ではない点に留意されたい。)
この数字には重要な前提がある。
AIが短縮しているのは何か
Noy & Zhang(2023)がScience誌に発表した実験では、453人の専門職に対してChatGPTを使ったライティングタスクを実施し、作業時間が40%減少し、品質が18%向上した3。効果は特にスキルの低い参加者で大きく、生産性の格差を圧縮する方向に作用した。
AIが劇的に短縮するのは、以下の作業時間である:
- 論文探索: キーワードから関連論文を網羅的にリストアップ
- 要約・抽出: 論文の要点を構造化して提示
- 翻訳: 英語論文の内容を日本語に変換、記事の日英展開
- 構成: 複数の情報源を論理的に構成
- 草稿生成: 整合的な文章としてまとめる
これらは本質的に情報処理の作業であり、AIの得意領域だ。
「書く」だけでなく「走査範囲」が圧縮される
見落とされがちだが、AIが短縮しているのは執筆時間だけではない。情報の走査範囲の圧縮が最も大きい。
人間がゼロからエビデンスベースの記事を書く場合、典型的なプロセスはこうなる:
- キーワードで検索し、候補となる論文を50本以上リストアップ
- そのうち20〜30本をAbstractレベルで流し読み
- 関連性の高い10〜15本を精読
- 最終的に引用するのは5〜10本
この過程で、引用しなかった40本以上の論文を読んだ時間は、最終成果物には直接反映されない。もちろん「関係ない」と判断する行為自体に価値はあるが、工数の大半を占めるのはこの除外作業だ。
AIが出力した記事を検証する場合、作業は根本的に違う:
- AIが選んだ10本の引用が実在するかをDOI・データベースで確認
- 引用内容が原著の主張と一致しているかを確認
- その文脈での引用が妥当かを判断
求められるスキルのレベルは同じでも、走査範囲が1/5以下になる。 これが「AIは論文を完全には書けないが、出力を検証する方が圧倒的に速い」という現実の構造だ。
さらに実践的なテクニックとして、AIに「引用しなかったが調査過程で参照した文献」のリストを残させることもできる。これにより、AIがなぜ特定の論文を採用しなかったのかを確認でき、見落としのチェックにも使える。
AIでは省略できないもの
検証力という壁
問題は、AIが生成した引用や主張を検証する能力が人間側に必要だという点だ。
Chelli et al.(2024)がJournal of Medical Internet Researchに発表した研究では、LLMが生成する学術引用のハルシネーション率を計測した4:
| モデル | ハルシネーション率 |
|---|---|
| GPT-3.5 | 39.6% |
| GPT-4 | 28.6% |
| Bard | 91.4% |
さらにBuchanan et al.(2024)の経済学分野での検証では、GPT-4でも20%以上の引用が架空であった5。プロンプトが一般的なトピックから具体的な質問に変わると、架空引用の割合は有意に増加した。
つまり、AIが「この論文によると〜」と書いた内容の5本に1本以上は存在しない論文を参照している可能性がある。
ただし、これは単発生成時の数字であることに注意が必要だ。
ハルシネーション率は下げられる——ゼロにはならないが
上記の研究はいずれも、LLMに一度だけ引用を生成させた結果を計測している。実際の運用では、生成後にAI自身にレビューさせる多段階パイプラインを組むことで、実効的なハルシネーション率を大幅に下げられる。
例えば:
- AI生成 — 記事と引用を出力(ここでのハルシネーション率が20〜40%)
- AI検証 — 別のプロンプト(または別モデル)で「引用が実在するか」「主張と引用が整合するか」を確認させる
- 自動検証 — DOI検索やGoogle Scholar APIで論文の実在を機械的に確認
- 人間メタレビュー — 最終的に人間が判断する
本ブログでは、生成→レビュー→ファクトチェックの3段階を経ている。単発生成のハルシネーション率がそのまま最終成果物に残るわけではない。
重要なのは、多段階にしてもゼロにはならないという点だ。AIが架空の論文を生成し、別のAIがそれを「正しい」と判定するリスクは残る。だからこそ、最終段階での人間の検証——特にDOI検索やデータベースでの実在確認——が不可欠になる。
この最終検証に必要な能力は:
- 論文が実在するかの確認(DOI検索、データベース照合)
- 引用内容が原著の主張と一致しているかの判断
- その論文をこの文脈で引用することが妥当かの評価
- 効果量や統計的指標の解釈が正しいかの検証
統計リテラシーの壁
特に深刻なのが統計の理解だ。
Lytsy et al.(2022)がUpsala Journal of Medical Sciencesに発表した研究は衝撃的である6。博士課程の学生と統計学者・疫学者に、p値の解釈に関する質問をしたところ:
- 博士課程の学生で正しく回答できたのはわずか10.7%
- 統計学者・疫学者でも12.5%
統計を専門とする人でさえ、p値を正しく解釈できていない。
Gigerenzer(2004)が引用するHaller & Krauss(2002)の調査でも同様の結果が出ている7。心理学の学生44人中正答者ゼロ、統計を教えていない教員39人中4人、統計を教えている教員(教授・講師・TA含む)30人中6人しか、p値に関するすべての質問に正答できなかった。
AIが論文から「p < 0.05で有意」と引用したとき、その記述が文脈的に妥当かを判断するには、p値の正しい解釈、効果量との関係、サンプルサイズの影響を理解している必要がある。この判断力はAIに代行させることが難しい。
論文リテラシーの習得コスト
3つのレベル
論文リテラシーは段階的に積み上がるスキルであり、一足飛びにはいかない。
flowchart TB
L0["レベル0: AI+常識<br>投資不要"]
L1["レベル1: 見つけられる<br>20〜40時間"]
L2["レベル2: 読める<br>+100〜200時間"]
L3["レベル3: 正しく引用できる<br>+100〜200時間"]
L0 --> L1
L1 --> L2
L2 --> L3
L3 --> Total["合計: 220〜440時間"]
レベル0は出発点だ。AIに質問し、複数の回答の一致度から方向性を判断する。学習投資は不要だが、架空の引用や統計の誤用を見抜く力はない。多くの人は意識せずここにいる。
レベル1: 論文を「見つけられる」(20〜40時間)
- Google Scholar、PubMed、IEEE Xplore等の学術データベースの使い方
- 被引用数やジャーナルのインパクトファクターで質を判断する方法
- プレプリント(arXiv等)と査読済み論文の違い
- 適切な検索キーワードの選び方
エンジニアは検索スキル自体は高いため、何を検索すべきかのパターンを覚えれば比較的早く到達できる。
レベル2: 論文を「読める」(累計120〜240時間)
ここが最大のハードルだ。ACRLの「高等教育のための情報リテラシーフレームワーク」は、情報リテラシーの習得に6つの閾概念(threshold concepts)が必要だとしている8。
主要な習得項目:
- 論文の構造(IMRaD形式)の理解と効率的な読み方
- 統計リテラシー: p値、効果量(Cohen’s d, r, オッズ比)、信頼区間、有意差と実質的差異の違い——これだけで入門書1冊分(40〜60時間)
- メタ分析の読み方: 異質性(I²)、出版バイアス(ファンネルプロット)、フォレストプロットの解釈
- 研究デザインの評価: RCT、準実験、観察研究、質的研究のエビデンスレベルの違い
参考までに、米国の大学院ではリサーチメソッドの修了証取得に12〜18単位を要する9。本記事で想定している「レベル2」は、この大学院課程の一部に相当する基礎的な範囲であり、すべてを修了する必要はない。
レベル3: 論文を「正しく引用できる」(累計220〜440時間)
- 文脈の判断: ある研究結果を別の文脈に適用して良いかの評価
- 限界の明記: 「〜と証明されている」と「〜という結果が報告されている」の使い分け
- 孫引きの回避: 二次情報源ではなく原著を確認する習慣
- 反証の探索: 自説を支持する論文だけでなく、矛盾する研究も探して言及する誠実さ
このレベルは「知識」ではなく「判断力」であり、実践を通じてしか身につかない。
独学の構造的問題
大学院では指導教員やピアレビューによってフィードバックが得られる。独学の場合、間違った理解を指摘してくれる人がいないという構造的な問題がある。
前述のLytsy et al.(2022)の結果が示すように、博士課程の学生でさえp値を正しく解釈できない。フォーマルな教育を受けていない場合、誤解がより長期間定着するリスクがある。
「100%正確でないと使えない」という罠
ここまで読むと、「220〜440時間の学習投資がなければエビデンスは使えない」と感じるかもしれない。しかし、これは完璧主義の罠だ。
そもそも、AIの精度を問題にする前に、比較対象の「人間が書いた記事」はどれほど正確なのだろうか。
そもそも「人間が書けば正確」なのか
Maier(2005)がJournalism & Mass Communication Quarterlyに発表した米国14紙・4,800件の大規模調査では、新聞記事の48%に事実誤認が含まれていた10。何らかのエラーを含む記事は61%に達する。事実誤認率は1936年の最初の調査(約50%)から70年間大きく改善していない。編集者のチェック、校閲を経た公開後の数字だ。
科学論文でも、Fang et al.(2012)がPNASに発表した分析では、撤回された論文の67.4%が不正行為(捏造43.4%、重複出版14.2%、剽窃9.8%)を原因としていた11。誠実な誤りによる撤回はわずか21.3%だ。
ここで重要なのは比較の公平性である。AIのハルシネーション率として引用される20〜40%は単発生成時の数字であり、レビューや修正を経ていない。しかし、AIを使った記事作成では、生成→AIレビュー→ファクトチェックのパイプラインを経るのがデファクトスタンダードだ。人間の記事も編集プロセスを経て公開される。フェアに比較するなら、双方とも公開時点の品質で比べるべきだ。
| 対象 | プロセス | 公開後の誤り率 |
|---|---|---|
| 人間の新聞記事 | 記者→編集→校閲 | 48〜61%(事実誤認) |
| 人間の学術論文 | 著者→査読→出版 | 撤回の67%が不正行為 |
| AI記事(単発生成) | 生成のみ | 20〜40%(引用ハルシネーション) |
| AI記事(多段階パイプライン) | 生成→AIレビュー→検証 | 定量データなし(単発比で大幅低減) |
さらに見落とされがちなのが忖度によるバイアスだ。人間の記事には、スポンサーへの配慮、組織内の力学、政治的立場による情報の選択的省略が含まれうる。これは「事実の誤り」ではないため誤報率の調査には現れないが、読者の判断を歪める点では事実誤認と同等かそれ以上に有害だ。
AIにはこの種の意図的省略のインセンティブがない。もちろん、人間が「この製品に有利な記事を書け」と指示すればAIも偏った記事を書くが、それは人間のバイアスがAIを経由して表出したものであり、AI固有の問題ではない。AIが自発的に生む誤りはランダムなハルシネーションであり、系統的なバイアスとは性質が異なる。ランダムな誤りは検出しやすいが、系統的な省略は検出が困難だ。
「AIは間違える」という批判は正当だ。しかし、比較対象の人間も同等以上に間違えている——しかも検出しにくい形で。
用途が要求する精度は一様ではない
その上で、必要な精度は用途によって根本的に異なる。
flowchart TB
subgraph High["高精度が必要"]
direction TB
H1["学術論文の執筆<br>メタ分析の実施"]
H2["必要リテラシー: レベル3<br>220〜440時間"]
H1 --> H2
end
subgraph Mid["中程度の精度"]
direction TB
M1["エビデンスベースの<br>ブログ記事"]
M2["必要リテラシー: レベル1〜2<br>20〜240時間"]
M1 --> M2
end
subgraph Low["方向性の正しさで十分"]
direction TB
L1["自分のキャリア判断<br>技術選定の参考"]
L2["必要リテラシー: レベル0〜1<br>AI+常識で十分"]
L1 --> L2
end
学術論文を書くなら、効果量の解釈やメタ分析の方法論を正しく理解する必要がある。これにはレベル3のリテラシーが不可欠だ。
しかし、「AIコーディングツールを導入すべきか」「キャリアの方向性をどう考えるか」といった判断に必要なのは、方向性として正しいかどうかだ。
「Noy & Zhang (2023) の研究で、AIライティングツールによる作業時間40%削減と品質18%向上が報告されている」——この情報の効果量が小数点以下まで正確かどうかは、ここでは重要ではない。「AIライティングツールは有意な生産性向上をもたらす」という方向性が分かれば、判断材料としては十分機能する。
エビデンスの「使い方」にもグラデーションがある
| 用途 | 求められる精度 | 必要な投資 |
|---|---|---|
| メタ分析・学術論文 | 効果量の正確な解釈、研究デザインの評価 | 220〜440時間 |
| エビデンスベースのブログ記事 | 主張と引用の整合性、基本的な統計理解 | 20〜240時間 |
| 技術選定・意思決定の参考 | 方向性の妥当性、大きな矛盾がないこと | AI+常識 |
| 個人の学習・キャリア判断 | 方向性の把握、複数情報源の一致 | AI+常識 |
重要なのは、自分がどのレベルの精度で使っているかを自覚することだ。「AIが出した研究結果を、正確なメタ分析として扱う」のは危険だが、「複数の研究が同じ方向を指しているから、方向性としては妥当だろう」と判断するのは合理的だ。
完璧主義がエビデンス活用を阻む
「論文を正確に読めないなら、エビデンスに触れるべきではない」——この考え方は、結果的にエビデンスに基づかない意思決定を正当化する。
現実には:
- エビデンスなしで判断するよりも、方向性だけでもエビデンスを参照する方が良い判断になる
- 100%の正確性がなくても、「複数の研究が生産性向上を示している」という傾向を知っているだけで、「周囲の印象だけで判断する」より優れている
- 精度の限界を自覚した上で使うなら、不完全なエビデンスにも十分な価値がある
なお、本ブログ自体がこの考え方の実践例でもある。記事はAIによる生成→AIレビュー→ファクトチェックのパイプラインを経ているが、作成者の学習を主目的としているため、学術論文レベルの完全な検証は行っていない。方向性の正しさを重視し、使える範囲で使うというスタンスで運用している。
それでもリテラシーが効いてくる場面
完璧主義を捨てた上で、それでも論文リテラシーが重要になる場面はある。
AIの引用を鵜呑みにできない場面
前述の通り、単発生成時にはLLMは20〜40%の確率で架空の論文を生成する。以下のような場面では、検証能力が不可欠だ:
- 公開する記事の引用 — 読者が検証可能な状態にする責任がある
- 組織の意思決定に使う根拠 — 方向性の誤りが大きなコストになる場合
- 対立する研究がある分野 — AIが一方の見解だけを提示するリスク
段階的な投資が現実的
必要に応じて段階的に深めていくアプローチが最も効率的だ。前述のレベル0〜3に沿って、具体的な最初の一歩を示す。
| レベル | 今日できるアクション |
|---|---|
| 0(AI+常識) | 複数のAIに同じ質問をし、回答の一致度で方向性を判断する |
| 1(検索と選別) | Google Scholarで論文の実在とDOIを確認する習慣をつける |
| 2(読解と評価) | Udemyの統計リテラシー無料コース12で入門し、AI出力の検証で実践する |
| 3(学術レベル) | 必要になった時点で投資する。最初から目指す必要はない |
AI自体が学習を加速する
逆説的だが、AIとの対話は論文リテラシーの習得を加速する面もある。
- 論文の構造を解説してもらう
- 統計概念の直感的な説明を求める
- 「この論文をこの文脈で引用するのは妥当か」を議論する
ただし、最終的な検証は学術データベースでの実在確認やDOI検索など、AI非依存の手段で行う必要がある。AIに「この引用は正しいか」と聞いても、AIが架空の論文を「正しい」と答える可能性があるからだ。
まとめ
エビデンスベース執筆のコスト構造を整理すると:
AIが短縮できるもの(作業時間):
- 論文探索・要約:数時間→数分
- 構成・草稿生成:数日→数十分
- 多言語展開:数時間→数分
- 合計で30〜50倍の生産性向上
AIでは省略できないもの(習得時間):
- 論文を見つける力:20〜40時間
- 論文を読む力:100〜200時間
- 正しく引用する判断力:100〜200時間
- 合計220〜440時間の学習投資
ただし、220〜440時間が常に必要なわけではない。
そもそも、編集プロセスを経た人間の新聞記事でも48%に事実誤認、61%に何らかのエラーが含まれる。AIの多段階パイプライン後の品質と公平に比較すれば、「人間が書けば正確」という前提自体が成り立たない。
自分のキャリア判断や技術選定の参考にするなら、AIが提示するエビデンスを「方向性の指標」として使うだけで十分だ。ブログ記事を書くなら、レベル1のリテラシー(20〜40時間)でAIの架空引用を除外できるだけでも、大きな差になる。
100%正確でないと使えないという完璧主義は、エビデンスの最大の敵だ。 エビデンスなしで判断するよりも、精度の限界を自覚した上で方向性を参照する方が、常に良い判断になる。
そして、論文リテラシーへの投資リターンは、AIの登場によって劇的に大きくなった。20時間の投資で引用の検証ができるようになり、200時間の投資でエビデンスベースの記事を月に何本も書けるようになる。完璧を目指さなくていい。使える範囲で使い始めることが、最も重要な第一歩だ。
関連記事
このテーマに関連する他の記事もご覧ください:
- AI活用の真価:時間短縮を超えた多面的な価値評価 - AIの価値を時間短縮以外の軸で評価するフレームワーク
- 言語化が苦手なエンジニアのためのブログの書き方 - AIとの対話で思考を整理する実践手法
- 「AIに丸投げ」に見える熟練者の真実 - 熟練者のAI委譲に隠れたメタ知識
- 科学的エビデンスに基づく効果的な学習方法 - 学習科学の基盤となるエビデンス
参考資料
本文中の引用番号に対応する参考資料を番号順に記載しています。
その他参考資料(本文中で番号引用なし)
Measuring Total Reading of Journal Articles - King, D.W. et al. (2006). D-Lib Magazine. 研究者の年間論文読解量の推移. 【信頼性: 高】
Scientists Reading Fewer Papers for First Time in 35 Years - Scientific American (2014). Tenopir & Kingの調査に基づく科学者の読書パターン変化. 【信頼性: 中〜高】
The impact of generative AI on academic reading and writing: a synthesis of recent evidence (2023–2025) - Frontiers in Education (2025). AIが学術的読み書きに与える影響の統合レビュー. 【信頼性: 高】
Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations - Greenland, S. et al. (2016). European Journal of Epidemiology, 31(4), 337–350. p値の誤解に関する包括的ガイド. 【信頼性: 高】
引用の正確性について: 本記事で引用した研究は、以下の方法で検証しています:
- 学術データベース(PubMed、Google Scholar、ScienceDirect等)での確認
- 公式ジャーナルウェブサイトでの論文情報の確認
- 複数の独立した情報源(学術メディア、研究機関の公式発表等)による相互検証
一部の論文については、全文PDFへの直接アクセスが制限されている場合がありますが、論文の要約(abstract)、DOI、著者情報、および主要な発見については、公式の学術データベースおよび信頼できる二次情報源を通じて確認しています。
Electronic Journals and Changes in Scholarly Article Seeking and Reading Patterns - Tenopir, C. & King, D.W. (2008). D-Lib Magazine. 1977年から2005年までの縦断研究で、研究者の論文読解時間の推移を計測. 【信頼性: 高】 ↩︎
Expert–Novice Comparison Reveals Pedagogical Implications for Students’ Analysis of Primary Literature - Nelms, A.A. & Segura-Totten, M. (2019). CBE—Life Sciences Education, 18(4). 認知負荷理論に基づく専門家と初学者の論文読解比較. 【信頼性: 高】 ↩︎
Experimental evidence on the productivity effects of generative artificial intelligence - Noy, S. & Zhang, W. (2023). Science, 381, 187–192. n=453、事前登録済みRCT. 【信頼性: 高】 ↩︎
Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis - Chelli, M. et al. (2024). Journal of Medical Internet Research, 26, e53164. 471件の引用を分析. 【信頼性: 高】 ↩︎
ChatGPT Hallucinates Non-existent Citations: Evidence from Economics - Buchanan, J., Hill, S. & Shapoval, O. (2024). The American Economist, 69(1), 80–87. 経済学分野でのGPT-3.5/4の架空引用率を計測. 【信頼性: 高】 ↩︎
Misinterpretations of P-values and statistical tests persists among researchers and professionals working with statistics and epidemiology - Lytsy, P., Hartman, M. & Pingel, R. (2022). Upsala Journal of Medical Sciences. n=139(博士課程75人+統計学者64人). 【信頼性: 高】 ↩︎
Mindless statistics - Gigerenzer, G. (2004). Journal of Socio-Economics, 33(5), 587–606. p値の誤解に関する調査と統計教育の問題. 【信頼性: 高】 ↩︎
Framework for Information Literacy for Higher Education - Association of College and Research Libraries (2015). 6つの閾概念に基づく情報リテラシーフレームワーク. 【信頼性: 高】 ↩︎
Advanced Research Methods Certificate - Texas A&M University. 12単位のリサーチメソッド修了証プログラム. 他大学でも12〜18単位が標準. 【信頼性: 中〜高】 ↩︎
Accuracy Matters: A Cross-Market Assessment of Newspaper Error and Credibility - Maier, S.R. (2005). Journalism & Mass Communication Quarterly, 82(3), 533–551. 米国14紙・4,800件を対象とした新聞記事の正確性調査. 【信頼性: 高】 ↩︎
Misconduct accounts for the majority of retracted scientific publications - Fang, F.C., Steen, R.G. & Casadevall, A. (2012). PNAS, 109(42), 17028–17033. PubMed掲載の撤回論文2,047件を分析. 【信頼性: 高】 ↩︎
Statistics literacy for non-statisticians - Udemy. 非統計学者向けの統計リテラシー無料コース. 基礎概念の入門として. 【信頼性: 中】 ↩︎