核心概念
大型語言模型 (LLM) 的拒答感知指令微調 (RAIT) 旨在讓模型學會拒絕回答未知問題,但現有基於正確性的 RAIT 方法存在過度拒答問題。本文分析了過度拒答的兩個主要原因:靜態衝突和動態衝突,並提出基於確定性表徵知識流的拒答感知指令構建方法 (CRaFT) 來解決這些問題。
摘要
CRaFT:以確定性表徵知識流的拒答感知指令構建方法
大型語言模型 (LLM) 的拒答感知指令微調 (RAIT) 旨在讓模型學會拒絕回答未知問題,從而提高其可靠性和減少幻覺現象。然而,現有基於正確性的 RAIT 方法存在過度拒答問題,即模型拒絕回答一些其實可以正確回答的問題。
本文深入分析了過度拒答的兩個主要原因:
靜態衝突: 在 LLM 的特徵空間中,基於正確性構建的 RAIT 數據集中,相似的樣本可能被分配到不同的標籤(原始答案 vs. 修改後的「我不知道」),導致模型難以區分已知和未知問題。
動態衝突: LLM 的知識狀態在微調過程中會發生變化,但現有方法使用基於初始 LLM 知識狀態構建的靜態 RAIT 數據,忽略了這種動態變化,導致訓練效率低下和過度拒答。
為了解決這些問題,本文提出了基於確定性表徵知識流的拒答感知指令構建方法 (CRaFT)。CRaFT 包含兩個階段:
階段一:查詢 LLM 的知識狀態和知識流
知識狀態查詢: 除了正確性,CRaFT 還引入了回應確定性來表徵 LLM 的知識狀態。
排練訓練: 通過對與 LLM 內部知識高度一致的數據樣本進行微調,捕捉 LLM 在微調過程中的自然知識流變化趨勢。
階段二:拒答感知指令構建和微調
利用階段一獲得的知識狀態和知識流信息,從原始數據集中選擇合適的樣本構建 RAIT 數據,並使用該數據對初始 LLM 進行微調。
深入分析了現有基於正確性的 RAIT 數據中的靜態和動態衝突,揭示了其導致 LLM 對已知和未知問題錯誤分類的原因,進而導致過度拒答問題。
提出了 CRaFT 方法,在構建 RAIT 數據時,除了正確性,還引入了確定性以減少靜態衝突;通過排練訓練,捕捉 LLM 的知識流趨勢,有效緩解動態衝突。
開發了真實性幫助度評分 (THS) 指標,用於更全面、準確地評估 LLM 的整體性能。