核心概念
本文指出,現有的程式碼大型語言模型對齊方法主要依賴於粗粒度的獎勵函數,例如PPO算法,而忽略了更細粒度的偏好差異。因此,本文提出利用DPO算法,透過程式碼執行器的執行回饋構建偏好數據集,以實現更有效、更可靠的程式碼大型語言模型對齊。
本研究論文探討如何提升程式碼大型語言模型(CodeLLMs)的能力。作者指出,現有 CodeLLMs 主要關注預訓練和監督式微調階段,而忽略了對齊階段的潛力。現有使用 PPO 算法對齊 CodeLLMs 的工作可能存在獎勵定義過於粗糙的問題。
為解決上述問題,本文提出利用直接偏好優化(DPO)算法來對齊 CodeLLMs。具體來說,研究人員利用程式碼執行器的執行回饋構建偏好數據集,用於 DPO 訓練。此外,研究還證明,對於程式碼任務,採用策略上 DPO 比策略外 DPO 更為有利。