Core Concepts
大規模言語モデルの知識表現メカニズムは単純な鍵-値メモリ構造では説明できず、より複雑な層構造やアテンションメカニズムを考慮する必要がある。
Abstract
本論文は、大規模言語モデルの知識表現メカニズンを解明するために提案された「知識ニューロン(KN)仮説」を再検討している。
KN仮説は、言語モデルの多層パーセプトロン(MLP)モジュールが鍵-値メモリのように機能し、事実情報を保持していると主張する。この仮説に基づき、MLPモジュールを編集することで言語モデルの事実生成を制御できると提案されている。
しかし本論文の分析により、以下の点が明らかになった:
文法的現象(冠詞-名詞一致、主語-動詞一致など)も同様にMLPニューロンに局在化できることが分かった。これは、事実情報と文法情報が同じメカニズムで処理されていることを示唆する。
同定されたKNを抑制しても、言語モデルの最終的な予測を覆すほどの影響は見られない。KNは単なる表層的なトークン共起パターンを反映しているにすぎない。
事実情報と文法情報の表現は、MLPモジュールだけでなく、モデルの複雑な層構造やアテンションメカニズムにも依存している。単純な鍵-値メモリ構造では知識表現プロセスを十分に説明できない。
以上より、KN仮説は言語モデルの知識表現メカニズムを過度に単純化したものであり、より複雑な内部構造を考慮する必要があると結論付けている。
Stats
冠詞-名詞一致の文法現象を表す文のうち、正しい冠詞を使用した文の確率は、誤った冠詞を使用した文に比べて94.8%まで低下した。
主語-動詞一致の文法現象を表す文のうち、正しい動詞形を使用した文の確率は、誤った動詞形を使用した文に比べて95.4%まで低下した。
Quotes
"事実情報の生成を制御できるようになれば、より制御可能で解釈可能な、事実に整合した言語モデルの開発につながる可能性がある。"
"知識ニューロン仮説は、多くの場合、単なる表層的なトークン共起パターンを反映しているにすぎない。"
"言語モデルの知識表現プロセスを理解するには、MLPモジュールだけでなく、複雑な層構造やアテンションメカニズムも探る必要がある。"