如果我們對離群值的生成方式有更多了解,的確可以設計出更有效的抗離群值均值估計演算法。
以下是一些可以利用離群值分佈信息的方法:
模型參數估計: 如果已知離群值來自特定分佈,可以利用已知樣本同時估計真實數據分佈和離群值分佈的參數。例如,可以使用混合模型方法,例如期望最大化 (EM) 算法,來估計各個分佈的參數,並最終推導出更精確的均值估計。
設計更精確的 SoS 約束: 可以根據離群值分佈信息設計更精確的 SoS 約束條件,例如,限制 SoS 程序中變量與離群值分佈的距離。
基於分類的方法: 可以將抗離群值均值估計問題視為一個二元分類問題,利用離群值分佈信息訓練一個分類器,區分真實數據和離群值,然後僅使用被分類為真實數據的樣本來估計均值。
總之,了解離群值的生成方式可以為設計更有效的抗離群值均值估計算法提供重要的先驗信息。可以利用這些信息改进現有算法,例如 SoS 方法,或設計全新的算法,例如基於混合模型或分類的方法。
0
目錄
透過平方和在崩潰點附近進行抗離群值均值估計
Outlier-robust Mean Estimation near the Breakdown Point via Sum-of-Squares