核心概念
大規模言語モデルは文脈知識と固有知識の間で適切に切り替えることができ、文脈知識を優先して使用し、固有知識は関連性がない場合にのみ使用することが望ましい。本研究では、適切なプロンプティング手法を用いることで、命令ファインチューニングされた大規模言語モデルが文脈知識によって高度に制御可能で、関連性のない文脈にも頑健であることを発見した。これを活用して、EREN (Edit models by REading Notes)を提案し、大規模言語モデルの編集の拡張性と頑健性を向上させた。
摘要
本研究は、大規模言語モデル(LLM)の編集に関する新しい手法を提案している。LLMは膨大な知識を記憶しているが、その知識が現実世界の知識と一致しない可能性があり、望ましくない動作や誤った予測につながる可能性がある。そのため、LLMの動作を特定の例で迅速に修正しつつ、関連のない例での性能を維持する「モデル編集」が注目されている。
本研究の主な発見と提案は以下の通り:
- 命令ファインチューニングされたLLMは、関連する文脈知識を優先し、関連性のない文脈にも頑健であることを発見した。
- この発見に基づき、EREN (Edit models by REading Notes)を提案した。ERENは、LLMに「ノートブック」メモリを補完し、関連する編集を検索して使用することで、大規模な編集に対応し、関連性のない編集の影響を回避する。
- 既存の手法よりも大幅に優れた性能を示した。また、複数の編集を組み合わせることができ、文法的に似ているが意味的に関連のない入力にも正しく対応できる。
本研究は、LLMの継続的な維持管理に向けて重要な一歩を踏み出したと言える。
统计
LLMは膨大な知識を記憶しているが、その知識が現実世界の知識と一致しない可能性がある。
大規模言語モデルの編集は、特定の例で迅速に動作を修正しつつ、関連のない例での性能を維持することを目的としている。
引用
"大規模言語モデル(LLM)は、パラメトリック知識(モデルの重みに符号化された知識)やコンテキスト知識(文脈に示された知識)を使ってさまざまな予測を行うことができる。多くのシナリオでは、LLMがコンテキスト知識と矛盾する場合はコンテキスト知識を優先し、コンテキストが関連性のない場合はパラメトリック知識に頼ることが望ましい。これにより、再学習ではなく、文脈内の編集によってモデルの知識を更新・修正することができる。"
"命令ファインチューニングされたLLMは、適切なプロンプティング手法を使うことで、コンテキスト知識によって高度に制御可能で、関連性のない文脈にも頑健であることを発見した。"