Core Concepts
言語モデルは、文脈から主題エンティティを抽出し、それを暗黙の関数に渡すことで事実を想起する。MLPはこの過程で個々の注意ヘッドの出力を増幅または抑制し、最終的な答えへと導く。
Abstract
本研究は、言語モデルの事実想起メカニズムを深く探究している。ゼロショット環境では、特定の注意ヘッドが文脈から主題エンティティを抽出し、それを後続のMLPに渡す。MLPはこの主題エンティティの情報を増幅または抑制し、最終的な答えへと導く。
この過程は、フューショット環境でも同様に観察された。さらに、多くのモデルにおいて、最終層でモデルが正解を過度に抑制する「反過信頼性」メカニズムが存在することが明らかになった。本研究ではこのメカニズムを解明し、その抑制を緩和する手法を提案している。
これらの解釈は、GPT-2ファミリーから1.3B OPTまでの様々な言語モデルや、多様な事実知識ドメインにわたるタスクで検証されている。
Stats
注意ヘッドL9H8とL10H0は、文脈から国名を抽出し最終位置に移動させる重要な役割を果たしている。
MLPは、個々の注意ヘッドの出力を増幅または抑制することで、主題エンティティの情報を際立たせる。
MLPの出力にはタスク固有の成分が含まれており、それが最終的な答えへと導く「関数適用」を実現している。
多くのモデルで、最終層において正解を過度に抑制する「反過信頼性」メカニズムが存在する。
Quotes
「言語モデルは、文脈から主題エンティティを抽出し、それを暗黙の関数に渡すことで事実を想起する」
「MLPは、個々の注意ヘッドの出力を増幅または抑制することで、主題エンティティの情報を際立たせる」
「MLPの出力にはタスク固有の成分が含まれており、それが最終的な答えへと導く「関数適用」を実現している」