本文提出了一種名為自適應溫度縮放(ATS)的後處理校準方法,用於提高大型語言模型(LLM)在強化學習微調(RLHF)後的校準性能。
ATS的核心思想是,預測每個token的溫度縮放參數,而不是使用單一的溫度縮放參數。這種自適應的方法能夠更好地解決LLM在RLHF後校準性能下降的問題,因為不同的輸入或主題可能會導致不同程度的校準偏移。
作者在MMLU、TriviaQA和TruthfulQA三個基準測試中評估了ATS的效果,結果顯示ATS能夠將RLHF後LLM的校準性能提高10-50%,同時不會影響模型性能。
作者還進行了一系列消融實驗,驗證了損失函數、損失權重和頭部架構等設計選擇對ATS性能的影響。結果表明,選擇性平滑損失函數、較高的平滑損失權重以及與LLM相同的Transformer頭部架構能夠取得最佳的校準效果。
總的來說,本文提出的ATS方法為提高RLHF後LLM的校準性能提供了一種有效的解決方案,並為進一步研究語言模型的不確定性表達提供了新的思路。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Johnathan Xi... a las arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19817.pdfConsultas más profundas