核心概念
本文提出了一種新的語言模型對齊方法——Kahneman-Tversky Optimization (KTO),其核心思想是將人類決策行為中的前景理論應用於模型訓練中,通過最大化人類對生成文本的效用而非僅僅最大化偏好可能性,來更好地對齊模型與人類價值觀。
論文概述
本研究論文提出了一種名為 KTO 的新型語言模型對齊方法,該方法基於行為經濟學中的前景理論。傳統的模型對齊方法如 RLHF 和 DPO 主要依賴於偏好數據,而 KTO 則直接優化人類對生成文本的效用,從而更有效地將模型與人類價值觀對齊。
研究背景
現有的語言模型對齊方法通常使用強化學習(RL)來根據人類反饋微調預先訓練的語言模型。這些方法通常需要大量的偏好數據,這些數據收集起來既昂貴又耗時。此外,這些方法通常難以在實踐中調整和穩定。
研究方法
KTO 利用 Kahneman 和 Tversky 的前景理論來模擬人類決策行為。前景理論指出,人們在面對風險時並非總是理性地做出決策,而是受到損失厭惡和風險偏好等認知偏差的影響。KTO 通過將這些偏差納入損失函數來直接最大化生成文本的人類效用。
主要發現
實驗結果表明,KTO 在各種基準測試中均優於現有的基於偏好的對齊方法,包括 DPO。具體而言,KTO 在數學推理和開放式判斷任務上表現出色,即使在數據不平衡的情況下也能保持良好的性能。
研究結論
KTO 提供了一種更有效、更穩定的語言模型對齊方法,並且可以利用更豐富、更容易收集的二元反饋數據。該方法為構建更安全、更有幫助的 AI 系統開闢了新的途徑。
研究意義
本研究對推進語言模型對齊領域具有重要意義。KTO 方法為解決現有基於偏好的方法的局限性提供了一種有前景的替代方案。此外,將前景理論應用於模型對齊也為理解和模擬人類決策行為提供了新的思路。
統計資料
在 GSM8K 數據集上,KTO 的表現比 DPO 高出 13.5 個百分點。
在使用 UltraFeedback 數據集時,KTO 可以在丟棄 90% 的正面樣本的情況下仍然優於 DPO。
在 OpenAssistant 數據集上,即使每個輸入只使用一個輸出,KTO 的表現仍然優於 DPO。