この論文では、大規模な言語モデルを人間の選好と一致させるための新しいアライメントフレームワークであるSELF-JUDGEが紹介されています。SELF-JUDGEは、オンポリシー学習を行い、追加の報酬モデルを必要とせずにパラメータ効率的であることが特徴です。JSFTを導入して、現在の方針に対する即座の応答の優先順位を判断する単一モデルをトレーニングします。実験結果は、SELF-JUDGEが優れたパフォーマンスを示し、既存手法よりも効果的であることを示しています。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問