Core Concepts
内部メモリと外部コンテキストの間で生じる知識の衝突を解釈し、Pruning Head via PatH PatcHing(PH3)という新しい手法を提案して、効果的に知識の衝突を緩和する。
Abstract
最近、言語モデル(LMs)は事実上多くの情報を記憶し、その情報を内部メモリとして保持しています。しかし、内部メモリが限られていたり古くなっていたりすることがあり、LMsは事実に反したコンテンツを生成する可能性があります。この問題を軽減するために、追加のリトリーバーまたはツールを使用してLMsに外部コンテキスト(非パラメトリックな知識)を提供することが有望な解決策です。ただし、内部メモリと外部コンテキストはしばしば互いに矛盾します。最近の研究では、LMsがどちらか一方に偏っているかどうかを確認しようと試みてきましたが、知識の衝突の根本的なメカニズムについては理解が限られています。この論文では、後半層で逆効果をもたらす注意頭や記憶頭から発生する知識の衝突に焦点を当てています。これらの洞察から得られた情報から、「Pruning Head via PatH PatcHing(PH3)」という新しい手法を提案しました。この手法は注意頭へ介入することで効率的に知識の衝突を緩和します。
Stats
PH3は8つのLMsで平均内部メモリ使用率を44.0%増加させました。
PH3は8つのLMsで平均外部コンテキスト使用率を38.5%増加させました。
Quotes
"PH3は内部メモリまたは外部コンテキスト使用率を柔軟に制御できます。"
"PH3は他の基準よりも優れた結果を示しました。"