核心概念
本文提出了一種名為自適應溫度縮放(Adaptive Temperature Scaling, ATS)的後處理校準方法,能夠針對每個token預測調整溫度縮放參數,從而有效地解決大型語言模型在強化學習微調後校準性能下降的問題。
摘要
本文提出了一種名為自適應溫度縮放(ATS)的後處理校準方法,用於提高大型語言模型(LLM)在強化學習微調(RLHF)後的校準性能。
ATS的核心思想是,預測每個token的溫度縮放參數,而不是使用單一的溫度縮放參數。這種自適應的方法能夠更好地解決LLM在RLHF後校準性能下降的問題,因為不同的輸入或主題可能會導致不同程度的校準偏移。
作者在MMLU、TriviaQA和TruthfulQA三個基準測試中評估了ATS的效果,結果顯示ATS能夠將RLHF後LLM的校準性能提高10-50%,同時不會影響模型性能。
作者還進行了一系列消融實驗,驗證了損失函數、損失權重和頭部架構等設計選擇對ATS性能的影響。結果表明,選擇性平滑損失函數、較高的平滑損失權重以及與LLM相同的Transformer頭部架構能夠取得最佳的校準效果。
總的來說,本文提出的ATS方法為提高RLHF後LLM的校準性能提供了一種有效的解決方案,並為進一步研究語言模型的不確定性表達提供了新的思路。
統計資料
在MMLU基準測試中,未校準的Llama-2-7b-Chat模型的ECE為0.298,BS為0.313,而使用ATS校準後,ECE降低到0.125,BS降低到0.227。
在TriviaQA基準測試中,未校準的Llama-2-7b-Chat模型的ECE為0.221,BS為0.239,而使用ATS校準後,ECE降低到0.069,BS降低到0.217。
在TruthfulQA基準測試中,未校準的Llama-2-7b-Chat模型的ECE為0.507,BS為0.480,而使用ATS校準後,ECE降低到0.197,BS降低到0.264。
引述
"本文提出了一種名為自適應溫度縮放(ATS)的後處理校準方法,能夠針對每個token預測調整溫度縮放參數,從而有效地解決大型語言模型在強化學習微調後校準性能下降的問題。"
"ATS的核心思想是,預測每個token的溫度縮放參數,而不是使用單一的溫度縮放參數。這種自適應的方法能夠更好地解決LLM在RLHF後校準性能下降的問題,因為不同的輸入或主題可能會導致不同程度的校準偏移。"
"作者在MMLU、TriviaQA和TruthfulQA三個基準測試中評估了ATS的效果,結果顯示ATS能夠將RLHF後LLM的校準性能提高10-50%,同時不會影響模型性能。"