この論文では、大規模な言語モデルを人間の選好と一致させるための新しいアライメントフレームワークであるSELF-JUDGEが紹介されています。SELF-JUDGEは、オンポリシー学習を行い、追加の報酬モデルを必要とせずにパラメータ効率的であることが特徴です。JSFTを導入して、現在の方針に対する即座の応答の優先順位を判断する単一モデルをトレーニングします。実験結果は、SELF-JUDGEが優れたパフォーマンスを示し、既存手法よりも効果的であることを示しています。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Sangkyu Lee,... klokken arxiv.org 03-05-2024
https://arxiv.org/pdf/2402.11253.pdfDypere Spørsmål