Core Concepts
言語モデルの表現空間における介入を用いて、特定の概念(例えば性別)の符号化を最小限に変更しながら、入力テキストの反事実文を生成することができる。
Abstract
本研究では、言語モデルの表現空間における介入手法を用いて、入力テキストの反事実文を生成する手法を提案している。具体的には以下の通りである:
言語モデルの表現空間における介入手法(LEACE、MiMiC、MiMiC+α)を適用し、特定の概念(例えば性別)の符号化を変更する。
表現空間の介入後に、逆変換モデルを用いて自然言語の反事実文を生成する。
生成された反事実文を分析することで、言語モデルにおける特定概念の符号化方法を解釈できる。
生成された反事factorial文をデータ拡張に利用することで、分類タスクにおける公平性を向上させることができる。
実験では、短い伝記データセットを用いて性別の介入を行い、生成された反事実文を分析した。その結果、単なる代名詞の変更だけでなく、より微妙な言語的変化(例えば、男性の伝記では"recent"、"recently"、"various"といった単語が多く使われる傾向)も観察された。また、生成された反事実文をデータ拡張に利用することで、職業分類タスクの公平性が向上することが示された。
Stats
男性の伝記では"he"、"his"、"him"の使用頻度が高くなる一方で、女性の伝記では"she"、"her"の使用頻度が高くなる。
LEACE手法を用いると、文章内で男女の代名詞が混在する傾向がある。
男性の伝記では"of"、"the"、"a"、"at"、"for"といった前置詞の使用頻度が高くなる一方で、女性の伝記では"medical"、"university"、"featured"、"member"、"finalist"といった専門的な単語の使用頻度が高くなる。