Core Concepts
モデル編集によるバイアスと情報の歪みについての深い調査
Abstract
言語モデルの編集がどのように特定の人種や地理的属性に対するモデルの信頼性を低下させるか、特にFTおよびMENDが影響を与えることが明らかになった。MEMITは単一属性フレーズ補完で一貫したパフォーマンスを示し、一般化能力が高いことが示唆された。長文生成では、性差別や排外主義などの問題が増加する傾向が見られた。
Stats
MENDは黒人、東アジア人、ラテン系、白人に対して出生地への信頼性を低下させる。
MEMITは女性への信頼性を低下させる。
FTは市民権への信頼性を低下させる。
Quotes
"Model editing amplified biases toward certain social groups."
"Editing model weights carries significant risks of unintended bias and misinformation amplification."