Alapfogalmak
大型語言模型經常表現出「冗長補償」行為,即產生過於冗長的回應,試圖掩蓋其不確定性,但這會損害效能並造成混淆。
本研究論文分析大型語言模型 (LLM) 中普遍存在的「冗長補償」(VC) 現象。作者將 VC 定義為在被要求簡潔回答時,產生可以壓縮而不損失資訊的回應的行為。
研究人員建立了一個包含五個知識和推理型問答任務資料集的基準,並使用 14 個新開發的 LLM 進行實驗。結果顯示,所有模型和資料集都普遍存在 VC 現象,例如 GPT-4 的 VC 頻率為 50.40%。
研究發現,冗長回應的效能顯著低於簡潔回應,例如在 Qasper 資料集中差異高達 27.61%。此外,冗長回應表現出更高的不確定性,顯示冗長性與模型不確定性之間存在密切關聯。
為了減輕 VC 現象,研究人員提出了一種簡單有效的級聯演算法,將冗長的回應替換為其他模型產生的回應。實驗結果顯示,該方法有效降低了 Mistral 模型在 Qasper 資料集上的 VC 頻率,從 63.81% 降至 16.16%。
所有測試的 LLM 都表現出顯著的冗長性。
冗長回應的效能明顯低於簡潔回應。
模型能力的提升並不能完全解決 VC 問題。
VC 現象與模型的不確定性密切相關。
級聯模型選擇演算法可以有效減輕 VC 現象。