Centrala begrepp
本研究提出了一個全面的框架來測量和緩解具有多個保護屬性的資料集中的偏差。我們引入了新的偏差測量方法,並將其與現有方法進行了分類。此外,我們展示了如何使用FairDo框架有效地緩解任何類型的偏差,包括交叉偏差。
Sammanfattning
本研究主要關注如何測量和緩解具有多個保護屬性的資料集中的偏差。首先,我們提出了一個全面的框架來分類不同的偏差測量方法。除了引入新的測量方法外,我們還將現有的方法進行了分類。這些方法可以處理單一保護屬性以及多個保護屬性的情況。
對於緩解偏差,我們使用了FairDo框架,這是一種公平性無關的預處理方法。FairDo可以最小化任何類型的偏差,包括交叉偏差。與其他方法不同,FairDo在優化過程中不會修改個人的特徵,從而保持了資料的完整性。
我們在Adult、Bank和COMPAS等常見的公平性研究資料集上進行了實驗。結果表明,使用FairDo可以顯著減少資料集中的偏差,平均減少28%。此外,在這些公平資料集上訓練的機器學習模型在公平性和性能方面都有所提高。
總的來說,本研究提供了一個全面的框架來處理具有多個保護屬性的資料集中的偏差問題,並展示了一種有效的緩解策略。這些技術解決方案可以幫助利益相關方提高資料集和機器學習模型的公平性,以符合歐盟人工智慧法案的要求。
Statistik
在Adult資料集上,使用非交叉偏差測量時,偏差從20%降低到13%;使用交叉偏差測量時,偏差從31%降低到16%。
在Bank資料集上,使用非交叉偏差測量時,偏差從24%降低到5%;使用交叉偏差測量時,偏差從33%降低到15%。
在COMPAS資料集上,使用非交叉偏差測量時,偏差從30%降低到5%;使用交叉偏差測量時,偏差從100%降低到17%。
Citat
"[...] The data sets should also have the appropriate statistical properties, including as regards the persons or groups of persons in relation to whom the high-risk AI system is intended to be used, with specific attention to the mitigation of possible biases in the data sets [...]"
歐盟人工智慧法案第(67)條