核心概念
InfoRM 是一種基於資訊理論的新型獎勵模型框架,旨在透過識別和過濾與人類偏好無關的資訊來減輕 RLHF 中的獎勵駭客問題,並提出了一個名為 CSI 的指標來偵測獎勵過度優化,從而提高大型語言模型與人類偏好的對齊度。
摘要
書目資訊
Miao, Y., Zhang, S., Ding, L., Bao, R., Zhang, L., & Tao, D. (2024). InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在解決強化學習從人類回饋中學習 (RLHF) 中的獎勵駭客問題,特別是獎勵模型過度優化於與人類偏好無關的特徵的問題。
方法
- 資訊理論獎勵模型 (InfoRM):本研究提出了一個基於資訊理論的獎勵模型框架 InfoRM,透過引入變分資訊瓶頸 (VIB) 目標函數來過濾與人類偏好無關的資訊。
- 叢集分離指標 (CSI):基於 InfoRM 的 VIB 潛在空間中異常值的出現與獎勵過度優化之間的關聯性,本研究設計了 CSI 作為獎勵過度優化的指標,透過量化 RLHF 模型生成樣本分佈的偏差來識別異常值。
主要發現
- 模擬實驗表明,InfoRM 能有效減輕獎勵過度優化,並顯著提高 RLHF 效能,特別是在存在標籤雜訊的情況下。
- 真實世界實驗表明,InfoRM 在各種任務(包括一般對話和摘要)上均優於標準獎勵模型和現有減輕獎勵駭客的方法。
- CSI 被證明可以有效且穩健地偵測各種資料集上的獎勵過度優化,為 RLHF 演算法設計和線上減輕過度優化策略的開發提供了有價值的指導。
主要結論
InfoRM 提供了一種有前景的方法來解決 RLHF 中的獎勵駭客問題,透過其資訊理論基礎和新穎的過度優化偵測機制,InfoRM 有可能顯著提高大型語言模型與人類偏好的對齊度。
意義
本研究顯著推進了 RLHF 領域的發展,特別是在減輕獎勵駭客和提高大型語言模型的安全性和可靠性方面。
局限性和未來研究方向
- 未來的工作可以探索將 InfoRM 擴展到更大規模的語言模型。
- 開發即時、輕量級的過度優化偵測指標對於增強 RLHF 的效率至關重要。
- 未來研究的一個方向是探索更優化的方法來從自動化系統中引出高品質的判斷,以確保更可靠和一致的評估結果。
統計資料
使用 GPT-4 評估,InfoRM 在 Anthropic-Helpful 資料集上相對於 SFT 模型的勝率為 57.0%。
在模擬 RLHF 實驗中,InfoRM 在存在 25% 標籤雜訊的情況下,始終優於標準獎勵模型和使用 KL 散度懲罰的標準獎勵模型。
CSI 值在標準獎勵模型的 RLHF 過程中顯著增加,表明出現了異常值和潛在的獎勵過度優化。
引述
"One primary cause of reward overoptimization in the reward modeling process is reward misgeneralization [6], where RMs may incorrectly generalize training data, resulting in poor proxies for actual human preference."
"This approach aims to filter out information irrelevant to human preferences from the IB latent representation, which acts as a crucial intermediary between the RM outputs and the corresponding human preferences."
"In particular, we discover a correlation between reward overoptimization and the emergence of numerous outliers in the latent IB space of InfoRM, a phenomenon not observed in RM without IB."