Baixe o Linnk AI
•
Assistente de Pesquisa
>
Entrar
insight
-
大型语言模型对齐
GenARM:利用自回归奖励模型在测试时进行奖励引导生成,实现与人类偏好的对齐
GenARM 是一种测试时对齐方法,它利用自回归奖励模型来有效地引导冻结的大型语言模型,使其生成内容与人类偏好相一致,同时具有高效性和多目标对齐的优势。
1