Core Concepts
大規模言語モデルの内部メカニズムを説明可能性の観点から解明し、その知見を活用して性能向上、効率化、人間との価値観の整合性を図る。
Abstract
本論文は、大規模言語モデル(LLM)の内部メカニズムを解明するための取り組みを体系的に概説している。
まず、ニューロンレベル、回路レベル、注意機構レベルの分析を通じて、LLMの知識の構造的な構成方法を明らかにしている。ニューロンは多義的な性質を持ち、重ね合わせや単義性の概念によってその特性が説明される。回路分析では、注意機構の中の「クエリー-キー」回路と「出力-値」回路が重要な役割を果たすことが示されている。また、誘導ヘッドと呼ばれる注意機構が、コンテキスト学習能力の源泉となっていることが明らかにされている。
次に、LLMの中間表現に埋め込まれた知識、特に世界知識と事実知識について分析している。プローブ手法を用いることで、空間や時間、真偽に関する知識の表現構造が明らかになっている。さらに、望ましくない振る舞い(虚偽、有害性、幻覚)に関連する表現も特定できることが示されている。
最後に、訓練過程の分析を通じて、一般化能力の獲得メカニズムについて考察している。特に、「grokking」と呼ばれる現象に着目し、データ、重みノルム、損失関数の観点から分析を行っている。また、単なる統計的パターンの記憶ではなく、因果関係の学習が重要であることが指摘されている。
これらの知見を活用して、モデル編集による性能向上、プルーニングによる効率化、人間の価値観との整合性向上などの取り組みが紹介されている。
Stats
大規模言語モデルは、言語理解・生成タスクで卓越した性能を発揮しているが、その内部メカニズムは不透明である。
内部メカニズムの不透明性は、幻覚、有害性、人間の価値観との不整合などの課題を引き起こしている。
大規模言語モデルの一般化能力と推論能力の源泉を解明することが重要である。
Quotes
「大規模言語モデルの内部メカニズムを完全に理解することは、それらの安全で有益な展開を確保するための重要な一歩である。」
「ニューロンは多義的な性質を持ち、重ね合わせと単義性の概念によってその特性が説明される。」
「誘導ヘッドは、コンテキスト学習能力の源泉となっている。」