核心概念
與普遍看法相反, questionable research practices (例如 p-hacking)和其他研究實務(例如模型錯誤指定、探索性分析)通常不會誇大相關的第一型錯誤率,因為它們通常會導致理論上的誤解,而不是統計錯誤。
摘要
書目資訊
Rubin, M. (2024). 第一型錯誤率通常不會被誇大。試錯期刊。https://doi.org/10.36850/4d35-44bd
研究目標
本文旨在挑戰科學界普遍認為 questionable research practices 會誇大第一型錯誤率的觀點。作者認為,雖然第一型錯誤可能會導致某些研究結果無法複製,但錯誤率的誇大現象相對罕見,而且通常是理論上的錯誤,而非統計上的錯誤。
主要論點
- 第一型錯誤率的定義是基於一個理想化的情況,即隨機抽樣誤差是影響研究人員決策的唯一錯誤來源。
- questionable research practices (例如 p-hacking)和其他研究實務(例如模型錯誤指定、探索性分析)可能會導致理論上的誤解,但它們通常不會影響實際的第一型錯誤率。
- 研究人員經常將統計錯誤與理論錯誤混淆,並錯誤地認為他們的第一型錯誤率代表了在現實世界中錯誤拒絕實質虛無假設的可能性。
- 作者主張採用邏輯推論的方法來評估第一型錯誤率,該方法側重於假設和證據之間的邏輯關係,而不考慮其心理起源或研究人員的偏見。
文章結構
文章首先介紹了第一型錯誤率的概念,並區分了統計錯誤和理論錯誤。然後,作者探討了一系列被認為會誇大第一型錯誤率的 questionable research practices 和其他研究實務,包括:
- 模型錯誤指定
- 多重比較
- 選擇性推論
- 分叉路徑
- 探索性分析
- p-hacking
- 可選停止規則
- 雙重探測
- HARKing
對於每種情況,作者都證明了相關的第一型錯誤率通常不會被誇大到其名義水平以上,即使在極少數情況下確實發生了誇大,也很容易識別和解決。
文章結論
作者得出結論,複製危機可能至少部分是由於研究人員對統計錯誤的誤解以及他們對理論錯誤的低估造成的。作者主張採用更嚴謹的統計推論方法,並更加重視理論解釋的嚴謹性,以提高科學研究的可複製性。
引述
“questionable research practices 被認為會誇大實際的第一型錯誤率,使其超過 0.050 的名義常規水平,導致文獻中出現出乎意料的高水平的假陽性,從而導致出乎意料的低複製率。”
“我的論點與科學和統計哲學是一致的,這些哲學認為,在獨立於其心理起源的辯護背景下,假設和其檢驗結果之間的邏輯關係,包括在發現背景下的研究人員偏見(Popper,1962,p. 140;Popper,2002 p. 7;Reichenbach,1938,p. 5)。”
“簡而言之,第一型錯誤率膨脹在多重檢驗中既不常見也不成問題。”