本研究は、大規模言語モデル(LLM)が事前学習データから記憶する情報を特定の部分に局在化することができるかを検証している。
INJ Benchmarkでは、LLMに新しい情報を注入し、その情報が局在化された部分を特定する手法の性能を評価した。結果、ネットワーク剪定に基づく手法が最も良い性能を示した。
DEL Benchmarkでは、LLMが事前学習時に記憶した情報を特定し、その情報を削除することで局在化の性能を評価した。結果、どの手法も記憶された情報を完全に削除することはできず、関連する情報も同時に削除してしまう傾向があった。
これらの結果から、LLMの記憶された情報は特定の部分に局在化されているわけではなく、むしろ広く分散していることが示唆された。完全な局在化は難しく、今後の課題として、より精度の高い局在化手法の開発が必要だと考えられる。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Ting-Yun Cha... ที่ arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09060.pdfสอบถามเพิ่มเติม