本論文では、人間の嗜好に合わせて言語モデルの出力を効率的に調整する新しいアルゴリズム「Linear Alignment」を提案している。従来のRLHFアプローチでは、嗜好アノテーションの収集や複数モデルの最適化など、リソースが大量に必要とされていた。
Linear Alignmentは、出力分布の線形近似を利用して、モデルパラメータを更新することなく、単一の推論ステップで人間の嗜好に合わせた出力を生成することができる。具体的には以下の手順で実現される:
実験の結果、Linear Alignmentは従来のRLHFアプローチと同等以上の性能を示し、一般的な嗜好や個人的な嗜好の両方に対して優れた適応性を発揮することが確認された。さらに、推論コストも従来手法と比べて大幅に抑えられることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Songyang Gao... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.11458.pdfDeeper Inquiries