Główne pojęcia
大型語言模型在問答系統中可能會過度依賴參數化知識,而忽略輸入的上下文資訊,導致產生與上下文不符的幻覺答案。文章提出使用提示微調技術,引導模型關注上下文資訊,從而減輕知識衝突,提高答案的準確性和一致性。
Streszczenie
語言模型驅動問答中的知識衝突問題
這篇研究論文探討了大型語言模型在問答系統中面臨的一個重要挑戰:知識衝突。具體來說,研究發現基於序列到序列的問答模型,例如 BART,在訓練過程中可能會過度依賴模型參數中編碼的知識,而忽略輸入的上下文資訊,導致在測試時產生與上下文不符的「幻覺」答案。
論文貢獻
為了減輕這種知識衝突,這篇論文提出了一種基於提示微調的解決方案。作者認為,通過在訓練過程中明確地將輸入的上下文資訊與生成的答案關聯起來,可以引導模型更加關注上下文,從而減少幻覺答案的產生。
論文中介紹了兩種提示微調方法:瓶頸適配器和前綴微調適配器。這兩種方法都通過引入額外的可訓練參數來實現對模型的微調,而不需要修改原始模型的參數。這種方法的優點是:
- 避免了對原始模型進行微調時可能出現的災難性遺忘問題。
- 額外的參數可以幫助分析模型在微調過程中參數化知識的變化。
- 適配器參數量小,可以顯著加快微調速度。
實驗結果
論文在兩個問答數據集上進行了實驗:KMIR 和 Natural Questions (NQ)。實驗結果表明,這兩種提示微調方法都能有效地提高模型在處理知識衝突方面的表現,生成的答案與上下文資訊更加一致。
總結
這篇論文為解決問答系統中的知識衝突問題提供了一種有效的解決方案。提示微調技術可以引導模型更加關注上下文資訊,從而減輕對參數化知識的過度依賴,提高答案的準確性和一致性。
Statystyki
在 KMIR 數據集上,瓶頸適配器和前綴微調適配器在測試集上的準確率分別為 92.9% 和 91.9%。
在 NQ 數據集上,瓶頸適配器和前綴微調適配器在測試集上的準確率分別為 64.1% 和 64.8%。
Cytaty
"A particular challenge in ensuring factual consistency in grounded NLG tasks is that the usually unsatisfied sufficiency between the grounding context and gold output."
"We study a simple variant of hallucination, entity-based knowledge conflicts."
"We propose two set of orthogonal methods to mitigate undesirable model memorization: gradient based decoding and adapter-based fine tuning."