Core Concepts
本文提出了一种新的AI对齐方法SALMON,通过使用可指令化的奖励模型,在最小化人工监督的情况下实现语言模型的对齐。该方法可以通过调整奖励模型遵循的原则来控制模型的偏好,从而减少对大量人工标注偏好数据的依赖。
Abstract
本文提出了一种新的AI对齐方法SALMON,旨在通过最小化人工监督来实现语言模型的对齐。
该方法的核心是使用可指令化的奖励模型,该模型可以根据任意人工定义的原则生成奖励分数。在强化学习训练阶段,通过调整这些原则,可以完全控制奖励模型的偏好,从而影响强化学习训练的策略模型的行为,减少对大量人工标注偏好数据的依赖。
该方法采用合成数据训练可指令化的奖励模型,并在强化学习训练阶段使用人工定义的原则来指导奖励模型的评分。这样可以有效地应对奖励模型被策略模型操纵的问题,并且可以根据不同的原则来强调模型的有用性、诚实性和无害性。
将该方法与SELF-ALIGN技术相结合,仅使用6个示例进行上下文学习和31个人工定义的原则,就训练出了一个名为Dromedary-2的自我对齐AI助手代理,在各种基准测试中都显著优于广泛使用RLHF训练的最先进模型。
Stats
我们只使用了6个示例进行上下文学习,而不是数千个示例。
我们只使用了31个人工定义的原则,而不是大量的人工标注偏好数据。