核心概念
為了在弱監督條件下有效地對齊強大的大型語言模型,本文提出了多代理對比偏好優化框架 (MACPO),透過讓弱教師和強學生模型互相學習,迭代地強化不熟悉的積極行為並懲罰熟悉的消極行為,從而提升模型的對齊性能。
研究背景
大型語言模型 (LLM) 在各個領域取得了顯著的進展,但如何將其行為與人類價值觀對齊變得越來越重要。現有的對齊方法主要集中在強到弱對齊和自我對齊,難以適應更具挑戰性的弱到強對齊場景,即在弱教師模型提供的噪聲監督下對齊強大的學生模型。
MACPO 框架
為了解決弱到強對齊問題,本文提出了多代理對比偏好優化框架 (MACPO)。MACPO 的核心思想是促進弱教師和強學生模型互相學習,透過迭代地強化不熟悉的積極行為並懲罰熟悉的消極行為來提升對齊性能。
MACPO 的兩個策略
MACPO 主要包含兩個策略:
**相互積極行為增強:**鼓勵弱教師和強學生模型學習彼此的行為,將其視為不熟悉的積極行為,並透過迭代的偏好優化逐步提升弱教師和強學生模型的對齊性能,為後續迭代提供更高質量的積極行為。
**困難消極行為構建:**基於弱教師和強學生模型擁有不同知識的假設,透過在消極行為數據上進行微調,引導它們生成自身熟悉的消極行為,並將其視為需要懲罰的困難消極樣本。
實驗結果
在 HH-RLHF 和 PKU-SafeRLHF 數據集上進行的實驗表明,MACPO 能夠有效提升強學生模型的對齊性能,同時也提升了弱教師模型的對齊性能。此外,隨著弱教師模型數量的增加,MACPO 透過更多輪的迭代優化實現了更好的弱到強對齊性能。
結論
MACPO 框架為弱到強對齊任務提供了一種有效的新方法,透過鼓勵弱教師和強學生模型互相學習,迭代地強化不熟悉的積極行為並懲罰熟悉的消極行為,從而顯著提升了模型的對齊性能。
統計資料
MACPO 在 HH-Helpful 數據集上使用三個弱教師模型,經過三輪迭代後,其獎勵值從第一輪的 59.47 提升至 67.85。
在 HH-Harmless 數據集上,MACPO 的獎勵值從第一輪的 59.47 提升至 67.85。
在 PKU-SafeRLHF 數據集上,MACPO 的獎勵值從第一輪的 61.16 提升至 63.49。
GPT-4 評估結果顯示,MACPO 在 HH-Helpful、HH-Harmless 和 PKU-SafeRLHF 數據集上的勝率分別為 87.00%、76.00% 和 49.00%,顯著優於其他基線模型。
人工評估結果顯示,MACPO 在 HH-Helpful、HH-Harmless 和 PKU-SafeRLHF 數據集上的勝率分別為 74.00%、50.00% 和 80.00%,同樣優於其他基線模型。