Core Concepts
大規模言語モデルの表現の異方性を調整することで、様々な下流タスクの性能を向上させることができる。
Abstract
本論文では、大規模言語モデルの表現の異方性と性能の関係について調査している。従来の研究では、表現の等方性を高めることが性能向上につながると主張されてきたが、本研究では異方性を減らすことで性能が向上することを示している。
具体的には以下の通り:
従来の等方性の測定手法には問題があり、正確に等方性を測定できないことを指摘している。そのため、新たな指標であるIsoScore*を提案し、小さなサンプルサイズでも安定して等方性を測定できるようにしている。
IsoScore*を用いた正則化手法であるI-STARを提案し、異方性を減らすことで性能が向上することを示している。これは、異方性が自然言語処理のタスクにとって有益であるという、従来の理解とは逆の結果である。
異方性の減少は、表現の内在次元の圧縮につながり、これが性能向上に寄与していることを明らかにしている。
以上より、大規模言語モデルの表現の異方性を適切に調整することで、様々な下流タスクの性能を向上させられることが示された。
Stats
大規模言語モデルの表現は、わずか数次元の「暴走次元」に支配されている。
表現の等方性を高めることは、表現を「狭いコーン」に押し込むことになり、言語情報を隠蔽し、タスク性能を低下させる。
等方性を高めることは、表現の内在次元を増大させ、性能を低下させる。
Quotes
"Several previous works have argued that anisotropy, i.e., the lack of isotropy, is detrimental to LLM embeddings as it 1) forces representations to occupy a "narrow cone" in space (Ethayarajh, 2019; Cai et al., 2021); 2) obscures linguistic information, thereby limiting the expressive power of the embeddings (Gao et al., 2019; Zhang et al., 2020; Mickus et al., 2019), and; 3) hinders performance on a variety of downstream tasks (Kovaleva et al., 2021; Bi´
s et al., 2021; Timkey and van Schijndel, 2021)."
"However, some recent works have challenged previously held conceptions about isotropy, arguing that current methods of measuring isotropy are fundamentally flawed (Rudman et al., 2022; Rajaee and Pilehvar, 2021a)."