核心概念
雖然 Platt 比例縮放在欠抽樣後經常被用於模型校準,但這種方法並非為此目的而設計,並且在某些情況下可能效果不佳。本文分析了 Platt 比例縮放的局限性,特別是在處理完美基礎模型和具有特定系統誤差的模型時,並提出了替代方法,例如使用 logit 轉換和邏輯廣義加性模型 (GAM) 來增強 Platt 比例縮放。
這篇研究論文探討了在處理不平衡數據集時,於欠抽樣後進行模型校準的複雜性。作者首先強調了不平衡二元分類問題在各領域的普遍性,例如金融、醫療保健和野火預測。由於數據量龐大且類別不平衡,這些問題為建模帶來了挑戰,導致模型可能會忽略少數類別。
欠抽樣是一種常用的解決方案,它透過保留所有少數類別觀察值並僅保留多數類別的隨機子集來創建更平衡的訓練數據集。然而,這種方法會導致模型偏差,因為訓練數據的分佈與新數據的分佈不同,從而產生過高估計真實結果概率的預測。作者強調了校準概率估計以獲得可靠預測的重要性。
本文重點關注 Platt 比例縮放,這是一種常用的欠抽樣後模型校準方法。儘管其受歡迎,但作者質疑其適用性,因為它最初並非為此目的而設計。
作者首先從分析上證明,Platt 比例縮放無法正確校準完美擬合欠抽樣數據集的模型,從而導致條件概率估計不正確。當基礎模型的預測值與真實概率呈 sigmoid 關係時,證明了傳統 Platt 比例縮放的有效性。然而,對於傾向於將估計值推向極端值或與完美預測或完美 sigmoid 形狀有所不同的模型,作者建議使用邏輯廣義加性模型 (GAM) 作為一種更靈活和強大的方法。