Core Concepts
傳統的分類器性能指標,例如準確率,往往忽略了預測中的不確定性,而確定性比率 (Cρ) 作為一個新的指標,通過區分基於確定性預測和不確定性預測的性能,可以更全面地評估分類器可靠性。
本研究論文題為「確定性比率 Cρ:評估分類器預測可靠性的新指標」,探討了傳統分類器評估方法的局限性,並提出了一種新的指標——確定性比率 (Cρ),用於更全面地評估分類器預測的可靠性。
研究背景
傳統上,分類器性能評估主要依賴於混淆矩陣和相關指標,例如準確率、精確率、召回率、F 值和馬修斯相關係數等。然而,這些指標通常基於硬分類決策,即每個實例都被明確分配到單個類別,而忽略了許多分類模型的概率性質,這些模型提供的是類別成員概率而不是明確的標籤。因此,傳統的混淆矩陣可能會高估分類器的性能,因為它們忽略了預測中固有的不確定性。
研究方法
為了克服傳統指標的局限性,本研究提出了概率混淆矩陣 (CM⋆) 的概念,它將分類器的概率輸出直接納入性能評估中。通過將概率預測分解為代表確定性和不確定性的組成部分,CM⋆可以更真實地評估分類器性能。
本研究還引入了確定性比率 (Cρ),用於量化確定性預測和不確定性預測對任何分類性能指標的貢獻。Cρ 的值介於 0 到 1 之間,其中 1 表示所有性能都來自確定性預測,0 則表示所有性能都來自不確定性預測。
實驗結果
本研究使用來自 UCI 機器學習庫的 26 個數據集,對決策樹、樸素貝葉斯、3-最近鄰和隨機森林等多種分類器進行了實驗。實驗結果表明,Cρ 揭示了傳統指標經常忽視的關鍵見解。
研究結論
本研究強調了在性能評估中考慮概率信息的重要性,並證明了當沒有充分考慮不確定性時,常用的準確率指標可能會產生誤導。確定性比率 Cρ 為研究人員和從業者提供了一個強大的工具,用於在複雜環境中提高模型的可信度。
Stats
本研究分析了 26 個來自 UCI 機器學習庫的數據集,樣本數量從 100 到 19,020 不等,變量數量從 4 到 166 不等,類別數量從 2 到 30 不等。
研究評估了四種分類器的性能:3-最近鄰 (3-NN)、樸素貝葉斯 (NB)、決策樹 (DT) 和隨機森林 (RF)。
結果顯示,決策樹分類器表現出非常高的確定性比率,達到 98%,表明其性能穩健可靠。
3-最近鄰分類器表現穩定,發散性低,約為 4.5%,確定性比率為 92.3%。
隨機森林分類器雖然準確率最高 (Acc = 0.845),但發散性也相對較高,為 7.7%,確定性比率為 92.4%,表明其性能的很大一部分來自不確定的預測。
樸素貝葉斯分類器的表現與 3-最近鄰分類器相似,但準確率和不確定性普遍較低,平均準確率為 Acc = 0.681,確定性比率為 91.4%。