本文探討了實體配對(Entity Matching, EM)中阻塞方法的公平性問題。EM是識別不同來源中等同的資料實體的關鍵任務,但其計算複雜度隨資料規模呈二次增長,因此需要使用阻塞技術來提高效率。
作者首先介紹了EM和阻塞的基本概念,以及用於評估阻塞質量的傳統指標,包括減少比率(Reduction Ratio, RR)、配對完整性(Pair Completeness, PC)和配對質量(Pair Quality, PQ)。
接下來,作者擴展了這些指標,提出了一個評估阻塞方法偏差的框架。他們定義了基於少數群體和多數群體的RR、PC和其調和平均值(FPC,RR)的差異指標,以量化不同人口群體之間的偏差。
通過實驗分析,作者評估了各種阻塞方法的有效性和公平性。結果顯示,大多數方法在RR方面表現良好,但在PC方面存在較大差異。一些基於後綴的方法在某些數據集上表現出色,而基於深度學習的方法則在處理複雜或嘈雜數據時更有優勢。作者還發現,即使整體阻塞質量較高,也可能存在偏差,需要專門的方法來解決偏差問題。
最後,作者展示了阻塞階段的偏差如何傳播到整個EM流程的結果,並探討了移除敏感屬性對減少偏差的影響。這些發現強調了在EM中考慮公平性的重要性,特別是在阻塞階段,以確保公平和公正的結果。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询