弱いアラインメントモデルの学習前と学習後の分布の違いを利用することで、強いモデルのアラインメント能力を向上させることができる。
本稿では、大規模言語モデル(LLM)の出力選好を、従来の二値選好データではなく、選好度合いに応じた報酬値を持つ選好リストから学習させることで、より複雑な推論タスクにおけるLLMの性能向上を目指す新しい選好学習アルゴリズム「TPO」を提案する。
大規模言語モデル(LLM)の出力選好学習における課題である、データ品質とハイパーパラメータβの関係に着目し、データ品質に応じてβを動的に調整する手法(β-DPO)を提案することで、従来の固定βを用いたDPOよりも高い性能を達成した。
本稿では、大規模言語モデル(LLM)の出力結果を人間の選好に効果的に合わせるための新しいリストワイズ選好最適化アルゴリズムである、順序選好最適化(OPO)を提案する。OPOは、情報検索分野で広く用いられているランキング指標である正規化割引累積利得(NDCG)を最適化することで、複数の回答の相対的な近接性を効果的に活用し、LLMの出力結果の質を向上させる。
大規模言語モデル (LLM) を人間の価値観に整合させるための新しいアプローチとして、選好データから生成的判定器を学習させる手法「Con-J」を提案する。Con-Jは、従来のスカラー報酬モデルの解釈可能性の欠如やデータセットのバイアスの影響を受けやすいという問題を克服し、より正確で人間が理解しやすい選好判断を提供する。