本論文では、大規模言語モデルの適切な調整のための新しい手法であるTR-DPOを提案している。従来のDPO手法では、訓練中に参照モデルが固定されていたが、TR-DPOでは参照モデルを更新することで、より良い調整が可能になる。
具体的には、TR-DPOには2つの更新方法がある。1つは、現在のモデルπθと前回の参照モデルπrefを重み付き平均する「ソフト更新」、もう1つは、一定の間隔で現在のモデルπθを参照モデルπrefに直接置き換える「ハード更新」である。
実験の結果、TR-DPOはDPOよりも優れた性能を示すことが分かった。特に、ソフト更新におけるαの値を0.5~0.6の範囲に設定した場合、およびハード更新におけるτの値を256~512の範囲に設定した場合に、顕著な改善が見られた。
さらに、TR-DPOは一貫して様々なタスクやモデルサイズにおいて優れた性能を発揮することが確認された。これは、参照モデルの更新が大規模言語モデルの適切な調整に有効であることを示している。
今後の課題としては、より広範なタスクへの適用や、勾配挙動の詳細な分析、クラシックな学習手法との比較などが挙げられる。TR-DPOは実世界のシナリオでも意義のある応用が期待でき、モデル調整の新たなパラダイムを切り開くことが期待される。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Alexey Gorba... alle arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09656.pdfDomande più approfondite