核心概念
GenARM 是一种测试时对齐方法,它利用自回归奖励模型来有效地引导冻结的大型语言模型,使其生成内容与人类偏好相一致,同时具有高效性和多目标对齐的优势。
论文信息
标题: GenARM:利用自回归奖励模型在测试时进行奖励引导生成,实现与人类偏好的对齐
作者: Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh
机构: 马里兰大学帕克分校,摩根大通人工智能研究院
出版日期: 2024年10月10日
类型: 预印本
研究目标
本研究旨在解决大型语言模型 (LLM) 在测试时与人类偏好对齐的挑战,提出一种名为 GenARM 的新型测试时对齐方法,该方法利用自回归奖励模型 (Autoregressive RM) 来有效地引导冻结的 LLM 生成符合人类偏好的文本。
方法
自回归奖励模型 (Autoregressive RM): 与传统的轨迹级奖励模型不同,Autoregressive RM 经过专门设计,可以直接预测下一个词的奖励,从而提高引导生成的效率和准确性。
GenARM 框架: GenARM 将 Autoregressive RM 的下一个词奖励与冻结的 LLM 的 logits 相结合,以生成与人类偏好一致的响应。
弱到强引导: GenARM 支持使用较小的 Autoregressive RM 来引导较大的冻结 LLM,从而无需高昂的训练成本即可对齐更大的模型。
多目标对齐: GenARM 可以使用多个 Autoregressive RM 来处理不同的偏好维度,并允许在测试时调整奖励权重,从而无需重新训练即可满足不同的用户偏好。
主要发现
卓越的性能: GenARM 在对齐效果方面明显优于现有的测试时对齐基线,并且与训练时方法 DPO 的性能相当。
高效的弱到强引导: GenARM 能够使用较小的 Autoregressive RM(例如 7B 参数)来引导更大的冻结 LLM(例如 70B 参数),从而无需承担训练更大模型的高昂计算成本即可对齐更大的模型。
多目标对齐: GenARM 通过在测试时使用多个 Autoregressive RM 和调整奖励权重来实现多目标对齐,从而无需重新训练即可满足不同的用户需求。
意义
GenARM 为解决 LLM 对齐问题提供了一种高效且有效的方法,其测试时对齐能力、弱到强引导和多目标对齐支持使其成为将 LLM 部署到现实世界应用程序中的有价值的工具。
局限性和未来研究方向
本研究主要关注将 LLM 与人类偏好对齐,未来可以探索将 GenARM 应用于其他任务,例如数学和编码推理任务。
未来的研究可以进一步探索 Autoregressive RM 的设计和训练,以进一步提高其性能和效率。
統計
GenARM 使用一个 7B 参数的 Autoregressive RM 成功引导了一个 70B 参数的 LLM,在 AlpacaEval 2 的原始获胜率和长度控制获胜率方面,弥补了 Tulu2-70B 和 Tulu2-DPO-70B 之间超过 80% 的性能差距。
在多目标对齐实验中,GenARM 在 7B 参数规模上优于 RS,并且与 MORL 的性能相当,同时效率更高,无需重新训练。