Core Concepts
ノイズに強い嗜好最適化手法ROPOを提案し、大規模言語モデルの嗜好アラインメントを効果的に実現する。
Abstract
本論文は、大規模言語モデル(LLM)の嗜好アラインメントのための新しい手法ROPOを提案している。
嗜好アラインメントとは、LLMが人間の価値観に沿った応答を生成できるようにすることを目的とする。
従来の嗜好アラインメントの手法は、ランキングベースの手法が注目されているが、ランキングデータにノイズが含まれることが問題となっていた。
ROPOは、ランキングデータの信頼性が低い場合でも、ノイズに強い嗜好最適化を実現する。
具体的には、ログ尤度の差が大きい応答ペアに対して、勾配の重みを抑制することで、ノイズの影響を低減する。
理論的な分析から、ROPOはノイズの存在下でも最適解を得られることが示されている。
実験では、3つのテキスト生成タスクで、ROPOが従来手法を大きく上回る性能を示した。
Stats
人間アノテータ間の一致率は57%から76%の範囲にある。
人工的なノイズを10%以上加えると、従来手法の性能が大きく低下する。
Quotes
"ランキングベースの手法は、高品質な嗜好ランキングデータに大きく依存しているが、実践では嗜好ランキングデータにノイズが含まれるのは避けられない。"
"ROPOは、ノイズに強い嗜好最適化を実現する初めての手法である。"