大型語言模型的對齊調優過程中,知識的廣度和深度之間存在著潛在的不平衡,而 BPO 方法通過動態調整每個樣本的知識深度學習資源,有效地解決了這個問題,最終提高了模型的對齊效果和訓練效率。
大型語言模型對齊的效率可以透過數據採樣策略顯著提高,特別是使用基於資訊理論的方法來選擇高品質子集,可以在保持效能的同時,大幅降低數據需求和計算成本。
本文提出了一種基於近似變分貝葉斯逆向增強學習 (BIRL) 的新型訓練目標——近似變分對齊 (AVA),用於解決大型語言模型 (LLM) 對齊問題,並透過直接建模每個演示的真實獎勵和中間獎勵,提高了訓練信號的利用率,進而提升了模型的表示能力和泛化能力。
本文提出了一種名為特徵級約束偏好優化 (FPO) 的新方法,透過利用預先訓練的稀疏自動編碼器 (SAE) 和引入特徵級約束,在確保穩定性的同時簡化大型語言模型與人類偏好的對齊過程。
本文提出了一種名為 H-DPO 的新方法,通過控制訓練過程中語言模型輸出機率分佈的熵,來改進現有的直接偏好優化 (DPO) 方法,從而實現更有效的模型對齊,並產生更優質、更多樣化的文本輸出。
雖然 Bradley-Terry (BT) 模型已成為大型語言模型 (LLM) 獎勵建模的常見做法,但其理論依據和必要性仍存在問題。本文重新審視了 BT 模型在 LLM 對齊中的應用,揭示了其優缺點,並提出了一種基於排序一致性的替代方法,該方法更靈活,並且與現成的二元分類器兼容。
本文提出了一種名為「面向平局排序的直接偏好優化」(TODO)的新型對齊演算法,通過引入「平局」排序來增強大型語言模型(LLM)與人類偏好的對齊。
本文提出了一種名為 RE-CONTROL 的新方法,通過將大型語言模型視為動態系統並編輯其內部表示來引導其行為,從而實現模型與人類目標的對齊,並有效提升模型的有用性和安全性。
Aligner 是一種新穎且高效的語言模型對齊方法,它通過學習修正模型輸出與人類偏好之間的差異來提高模型的安全性、有用性和可靠性。
本文提出了一種基於湯普森抽樣的線上學習演算法 SEA (Sample-Efficient Alignment),旨在利用有限的人工回饋,高效地將大型語言模型與人類偏好對齊。