Core Concepts
言語モデルダイアログにおいて、システムプロンプトに従った出力が長期的に維持されるかどうかを定量的に評価し、その原因を分析した上で、注意力メカニズムに基づく新しい手法を提案している。
Abstract
本論文では、言語モデルダイアログにおける命令の安定性を定量的に評価するための新しいベンチマークを提案している。実験の結果、一般的な言語モデルでは、対話が長くなるにつれて、当初のシステムプロンプトに従った出力が徐々に崩れていくことが明らかになった。
この現象の原因を分析した結果、注意機構の減衰が主な要因であると考えられる。注意機構の減衰により、システムプロンプトに対する注意が低下し、出力が本来の指示から逸脱していくことが示唆された。
この問題に対処するため、注意機構を強化する「split-softmax」と呼ばれる新しい手法を提案している。実験の結果、split-softmaxは、性能の低下を最小限に抑えつつ、命令の安定性を大幅に改善できることが確認された。
Stats
言語モデルの出力が当初のシステムプロンプトから逸脱する度合いは、対話の回数とともに増大する。
対話の8回目までに、命令の安定性は大幅に低下する。
Quotes
"言語モデルダイアログにおいて、システムプロンプトに従った出力が長期的に維持されるかどうかを定量的に評価し、その原因を分析した上で、注意力メカニズムに基づく新しい手法を提案している。"
"注意機構の減衰により、システムプロンプトに対する注意が低下し、出力が本来の指示から逸脱していくことが示唆された。"