UC BerkeleyとPeking Universityの研究者らは、言語モデルの訓練技術が真実と一致しないことを指摘。模倣学習で訓練すると、人間が犯すエラーを再現する可能性があり、高く評価されるテキストを生成するように訓練すると、人間評価者が正確性を判断できないエラーを出力する可能性がある。そのため、彼らは完全に非監督的な方法で言語モデルの内部活性化から潜在知識を直接見つけることを提案している。具体的には、未ラベル付きモデル活性化だけからYes-No質問に正確に答える方法を導入している。この方法は論理的整合特性を満たす活性化空間内の方向を見つけて動作し、大規模な言語モデルに表現された多様な知識を回復できることを示している。さらに、この手法はプロンプト感度を半分に削減し、モデルが不正解回答を生成するよう促されても高い精度を維持し続けることも示している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Collin Burns... lúc arxiv.org 03-05-2024
https://arxiv.org/pdf/2212.03827.pdfYêu cầu sâu hơn