核心概念
提出一種新的偏差緩解算法ProxiMix,通過考慮子群組中鄰近樣本的標籤關係來緩解線性混合法(mixup)中可能存在的標籤偏差問題,從而提高模型的公平性表現。
摘要
本文提出了一種名為ProxiMix的新偏差緩解算法,旨在解決當前mixup方法在標籤偏差問題上的局限性。
具體來說:
- 現有的mixup方法在生成新樣本時,如果原始數據集中存在標籤偏差,則生成的新樣本也可能繼承這種偏差。
- ProxiMix在進行mixup時,不僅考慮了樣本對之間的線性關係,還引入了鄰近樣本的標籤關係,以減少生成樣本標籤的偏差。
- 實驗結果表明,ProxiMix在具有高度標籤偏差的數據集上,能夠顯著提高模型的公平性表現,特別是在不同子群組之間的預測結果和代價解釋的公平性方面。
- 此外,實驗還探討了不同子群組採樣策略和平衡度參數對ProxiMix性能的影響。結果顯示,適當的採樣策略和平衡度設置對於提高公平性非常關鍵。
總的來說,ProxiMix為解決機器學習模型中的偏差問題提供了一種有效的預處理策略,具有較好的實用價值。
統計資料
在成人收入數據集上,使用C2⊙C1'策略(增強高收入女性)時,決策樹和邏輯回歸模型的公平性指標DP%分別提高了63.8%和63.2%。
在法律學校數據集上,幾乎所有的mixup方法都能提高模型的預測性能,但只能略微改善公平性,因為原始模型的公平性已經很高(DP%超過90%)。
在信用違約數據集上,大多數ProxiMix組合都能提高模型的公平性,最佳平衡度d為0.7。
引述
"現有的mixup方法在生成新樣本時,如果原始數據集中存在標籤偏差,則生成的新樣本也可能繼承這種偏差。"
"ProxiMix在進行mixup時,不僅考慮了樣本對之間的線性關係,還引入了鄰近樣本的標籤關係,以減少生成樣本標籤的偏差。"
"實驗結果表明,ProxiMix在具有高度標籤偏差的數據集上,能夠顯著提高模型的公平性表現,特別是在不同子群組之間的預測結果和代價解釋的公平性方面。"