本文旨在分析基於餘弦相似度的語義向量偏差分數的語義特性。作者提出了可信度和可比性的要求,並分析了WEAT和Direct Bias這兩個著名的偏差分數。
作者首先定義了個體偏差和聚合偏差的概念,並基於此提出了可信度和可比性的要求。
隨後,作者分析了WEAT和Direct Bias:
WEAT的個體偏差分數s(t, A, B)是不可比的,因為它的極值取決於屬性集合A和B。但WEAT的效果值d(X, Y, A, B)是可比的。WEAT的效果值也不是可信的,因為它可能在某些情況下報告沒有偏差,即使存在個體偏差。
Direct Bias是可比的,但不是可信的。這是因為Direct Bias使用主成分分析得到的偏差方向可能無法適當地代表個體偏差方向。
最後,作者通過實驗驗證了理論分析的結果。實驗表明,WEAT的效果值可能會誤導使用者,而Direct Bias也可能會過度或低估偏差。
總的來說,本文為分析其他基於餘弦相似度的偏差分數提供了框架,並為未來設計更好的偏差量化方法提供了啟發。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות