本論文は、言語モデル(LLM)の出力を人間の選好に整列させる問題に取り組んでいる。従来のアプローチであるReinforcementLearningfromHumanFeedback(RLHF)は報酬モデルの学習と強化学習の2段階のパイプラインを必要とし、複雑であり、報酬モデルの偏りが政策最適化に伝播する課題がある。
一方、本論文で提案するSoft Preference Optimization(SPO)は、報酬モデルを必要とせず、選好データを直接利用して言語モデルを整列させる。SPOの損失関数は、選好ロスと正則化項の和で構成され、正則化項は選好データ以外の全出力分布にわたって適用される。これにより、選好データ内での過剰な適合を避けつつ、全体的な出力分布の整合性を保つことができる。
さらに、SPOの選好ロスは、選好確率の指数パラメータαを導入することで、出力分布の「柔らかさ」を調整できる。αが大きいほど出力分布がより確率的になり、αが小さいほど決定的な出力に近づく。この特性は、DPOやRLHFなどの既存手法と比べて、SPOの柔軟性と適応性の高さを示している。
理論的には、Bradley-Terry(BT)モデルが成り立つ場合、SPOの最適解は報酬のソフトマックスとなることが示される。つまり、SPOは報酬関数の存在を仮定せずに、BT仮定の下で最適な整列を達成できる。
実験では、物語生成タスクにおいて、SPOがDPOよりも高い性能を示すことが確認された。SPOは出力分布の柔軟性を維持しつつ、専門家の選好に整合的な言語モデルを学習できることが実証された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor