핵심 개념
本文提出了一種連續檢驗的方法,用於量測對假設的證據,而不是採用傳統的二元檢驗方式。這種連續檢驗可以視為隨機檢驗的連續非隨機解釋,提供了隨機檢驗的好處,但沒有外部隨機化的缺點。連續檢驗也可以解釋為對拒絕假設的檢驗數量的直接量測。
초록
本文提出了一種連續檢驗的方法,用於量測對假設的證據,而不是採用傳統的二元檢驗方式。
首先,作者指出傳統的假設檢驗框架中,二元的拒絕或不拒絕決定並不能反映許多科學研究的實際情況,這些研究通常旨在呈現對假設的證據,而不一定要下定論。
為了解決這個問題,作者提出了連續檢驗的概念,其值域為[0,1]而不是{0,1}。這種連續檢驗可以視為隨機檢驗的連續非隨機解釋,提供了隨機檢驗的好處,但沒有外部隨機化的缺點。連續檢驗也可以解釋為對拒絕假設的檢驗數量的直接量測。
為了使不同顯著性水平α的連續檢驗可以比較,作者提出將檢驗值域從[0,1]重新縮放到[0,1/α]。這使得不同水平的連續檢驗可以通過平均、混合等方式組合。
作者還探討了連續檢驗與e值之間的關係。發現e值可以視為水平α→0的連續檢驗,而水平α>0的連續檢驗對應於域限制在[0,1/α]的e值。
在功效的定義方面,作者指出傳統的最大化拒絕概率目標會導致連續檢驗趨向於二元行為,不利於離開二元檢驗框架。相反,作者提出使用期望對數等廣義平均目標,這可以推广傳統的Neyman-Pearson最優檢驗和對數最優e值,並包含其他選項。
最後,作者探討了p值與連續檢驗之間的關係,指出p值的倒數可以解釋為一種(通常無效的)連續檢驗或證據量測。但在某些特殊情況下,p值可以解釋為在廣義Type I誤差有效條件下的水平p拒絕。
통계
以下是支持作者論點的重要數據:
傳統假設檢驗的二元拒絕或不拒絕決定無法反映許多科學研究的實際情況。
連續檢驗的值域為[0,1],可以視為隨機檢驗拒絕概率的連續解釋。
將連續檢驗值域縮放到[0,1/α]使不同水平的檢驗可以比較和組合。
e值可以視為水平α→0的連續檢驗,而水平α>0的連續檢驗對應於域限制在[0,1/α]的e值。
最大化期望對數等廣義平均目標可以推广傳統的Neyman-Pearson最優檢驗和對數最優e值。
p值的倒數可以解釋為一種(通常無效的)連續檢驗或證據量測,但在某些特殊情況下可以解釋為在廣義Type I誤差有效條件下的水平p拒絕。
인용구
"傳統的假設檢驗框架中,二元的拒絕或不拒絕決定並不能反映許多科學研究的實際情況,這些研究通常旨在呈現對假設的證據,而不一定要下定論。"
"連續檢驗可以視為隨機檢驗的連續非隨機解釋,提供了隨機檢驗的好處,但沒有外部隨機化的缺點。"
"e值可以視為水平α→0的連續檢驗,而水平α>0的連續檢驗對應於域限制在[0,1/α]的e值。"
"最大化期望對數等廣義平均目標可以推广傳統的Neyman-Pearson最優檢驗和對數最優e值。"
"p值的倒數可以解釋為一種(通常無效的)連續檢驗或證據量測,但在某些特殊情況下可以解釋為在廣義Type I誤差有效條件下的水平p拒絕。"