本研究では、文書や文章の言語表現(エンコーディング)に潜在する偏りを分析し、下流タスクの公平性に影響を与える可能性を検討した。主成分分析(PCA)を用いて、異なるサブグループ間の再構成誤差の差異を調べた。その結果、単純な平均エンコーディングと極値エンコーディングの両方に、特定のサブグループに有利な偏りが見られた。
そこで、この二つのアプローチを凸結合することで、公平性と精度のバランスを取る手法を提案した。MTC(Multilingual Twitter Corpus)とHLDC(Hindi Legal Document Corpus)のデータセットを用いた実験では、適切な組み合わせ比率を見つけることで、公平性を向上させつつ分類精度も維持できることを示した。
今後の課題として、最適な組み合わせ比率を自動的に見つける手法の開発や、言語表現の公平性が下流タスクに与える影響をさらに分析することが挙げられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Biswajit Rou... at arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09664.pdfDeeper Inquiries