מושגי ליבה
類別不平衡會顯著影響群體公平性度量的行為,特別是對於正預測值一致性和負預測值一致性,這凸顯了根據資料特性選擇適當度量的重要性,並強調了開發對類別不平衡更具免疫力的新度量的必要性。
תקציר
書目資訊
Brzezinski, D., Stachowiak, J., Stefanowski, J., Szczech, I., Susmaga, R., Aksenyuk, S., Ivashka, U., & Yasinskyi, O. (2024). Properties of fairness measures in the context of varying class imbalance and protected group ratios. arXiv preprint arXiv:2411.08425v1.
研究目標
本研究旨在探討在類別不平衡和受保護群體比例不同的情況下,六種常用的群體公平性度量的行為。
方法
研究人員分析了六種公平性度量(準確率相等、統計奇偶性、均等機會、預測相等、正預測值一致性和負預測值一致性)的機率質量函數,並定義了八種與資料集無關的屬性(對 IR 變化的免疫性、對 GR 變化的免疫性、解析度穩定性、公平性對稱性、IR 對稱性、GR 對稱性、完美公平性穩定性和未定義值),以在不同的類別不平衡和受保護群體比例下描述這些度量的行為。此外,他們還使用 UCI 成人資料集進行了受控實驗,以驗證所提出的通用屬性如何應用於涉及六種不同分類器(k-最近鄰居、樸素貝葉斯、決策樹、邏輯回歸、隨機森林和多層感知器)的實際分類場景。
主要發現
- 所有分析的度量在存在類別不平衡的情況下都會改變其行為,並且在較小程度上,在存在受保護群體偏差的情況下也會改變其行為。
- 準確率相等和統計奇偶性在不同的類別和群體比例下具有最穩定的值分佈,對待兩個類別和群體的方式對稱,幾乎沒有未定義的值,並且在所有不平衡和群體比例下實現完美公平性的機會保持接近恆定。
- 均等機會和預測相等是互補的,因為前者在資料集中正例較少時變得不穩定,而後者在資料集中負例較少時表現較差。
- 正預測值一致性和負預測值一致性被發現是最不穩定和分佈最不對稱的。
主要結論
- 在存在類別不平衡的情況下,資料不平衡會顯著影響群體公平性度量的行為,特別是對於正預測值一致性和負預測值一致性。
- 選擇公平性度量時需要考慮資料特性。
- 準確率相等和統計奇偶性對於不平衡資料集來說是最可靠的度量。
- 均等機會或預測相等的適用性取決於類別不平衡的類型。
- 正預測值一致性和負預測值一致性應主要用於類別和受保護群體相對平衡的資料集。
意義
本研究強調了在類別不平衡的情況下仔細選擇公平性度量的必要性,並為在實際環境中選擇適當的度量提供了指導。
局限性和未來研究方向
- 未來的研究可以將當前的分析擴展到更複雜的資料情景下的公平性度量屬性,例如刻板印象偏差。
- 未來的研究可以將實現特定混淆矩陣的機率作為一個參數,用於分析不同先驗條件下度量的屬性。
- 所提出的屬性可用於設計新的公平性度量,使其更加穩健,更適合處理不同的類別不平衡和受保護群體偏差。
- 這些屬性可能有助於開發新的分類器公平性干預方法。
סטטיסטיקה
研究人員分析了六種常用的群體公平性度量。
他們定義了八種與資料集無關的屬性來描述這些度量。
實驗使用了 UCI 成人資料集,並控制了不平衡率 (IR) 和群體比率 (GR)。
他們使用了六種不同類型的學習演算法:k-最近鄰居、樸素貝葉斯、決策樹、邏輯回歸、隨機森林和具有 100 個神經元隱藏層的多層感知器 (MLP)。
每個資料子集的大小均等於 n=1100。
他們對每個資料子集進行了 50 次隨機分層留出評估(67% 訓練,33% 測試)。