本論文では、マルチモーダルRLHFと同等の性能を、より効率的な継続的なSFTで実現する新しい手法であるnSFTを提案しています。
従来のマルチモーダルRLHFは、SFT後にユーザーの意図とモデルの応答を整合させるために用いられてきましたが、GPUメモリ不足や学習の不安定さといった問題がありました。本研究では、マルチモーダルRLHFの成功要因が、拒否された応答に含まれるネガティブな教師データにあることを、勾配と最適化の観点から理論的に分析しました。
この発見に基づき、nSFTは、拒否された応答からネガティブな教師データを抽出し、SFTの損失関数に組み込むことで、モデルの継続的な学習を可能にします。具体的には、LLMを用いて、拒否された応答から誤った情報を識別し、その誤りを修正するような新しい会話を生成します。
実験の結果、nSFTは、従来のマルチモーダルRLHFと同等の性能を達成することが示されました。また、nSFTは、RLHFのように複数のモデルを必要としないため、メモリ効率にも優れています。
さらに、nSFTは、RLHFで用いられるKL制約を追加することで、より効果的に学習できることも示されました。
本研究は、大規模な視覚言語モデルを適切に学習するための新たな方向性を示唆するものです。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問