特定ドメイン向けに高品質なデータを使用して大規模言語モデルを微調整することが、モデルの性能向上につながることを示唆している。
大規模言語モデルの微調整において、パラメータの半分を凍結することで、既存の知識を維持しつつ新しい能力を獲得できる。
選択的自己リハーサル(SSR)は、標準的な教師付き微調整(SFT)と同等の性能を達成しつつ、汎化性能を大幅に向上させる微調整アプローチである。
本論文では、大規模言語モデルの微調整のためのマロウズ-DPOアプローチを提案する。このアプローチの特徴は、ユーザーの好みの分散を表す指標を報酬関数に組み込むことで、従来のDPOモデルを一般化したものである。実験結果から、マロウズ-DPOは合成バンディット問題や対話生成などの様々なベンチマークタスクにおいて、従来のDPOよりも優れた性能を示すことが分かった。
適切な損失関数を選択することで、大規模言語モデルの微調整を効率的に行うことができる。これにより、追加のデータやヒューマンフィードバックなしでも、数学ワードプロブレムや質問応答タスクの性能を向上させることができる。