Core Concepts
メタ学習を用いて、強化学習の過程で変化する環境分布に報酬モデルを適応させることで、報酬モデルの識別能力を維持する。
Abstract
本論文は、強化学習から人間のフィードバックを得る(RLHF)手法において、報酬モデルの性能が重要であることに着目している。RLHF では、初期段階で人間の好みデータを用いて報酬モデルを訓練し、その後の強化学習の過程で言語モデルの出力分布が変化していくが、その際に報酬モデルの識別能力が低下してしまう問題がある。また、特定の分布のデータで訓練された報酬モデルが、分布の異なるデータに対して一般化できないという課題もある。
本論文では、これらの課題に対処するため、メタ学習を用いて報酬モデルを環境分布の変化に適応させる手法「MetaRM」を提案している。MetaRMでは、報酬モデルの訓練時に、元の好みデータに対する損失関数に加えて、変化した分布のデータに対する識別能力を高める損失関数を組み合わせることで、報酬モデルを新しい分布に適応させる。
実験の結果、MetaRMは、RLHF最適化の過程で報酬モデルの識別能力を維持し、言語モデルの性能を向上させることができることが示された。また、特定の分布のデータで訓練された報酬モデルでも、MetaRMを用いることで、分布の異なるデータに対する識別能力を獲得できることが確認された。
Stats
強化学習の過程で、言語モデルの出力分布が変化するにつれ、報酬モデルの識別能力が低下する。
特定の分布のデータで訓練された報酬モデルは、分布の異なるデータに対して一般化できない。
Quotes
「強化学習から人間のフィードバックを得る(RLHF)手法において、報酬モデルの性能が重要である」
「報酬モデルの識別能力が低下する問題と、特定の分布のデータで訓練された報酬モデルが一般化できない問題を、環境分布の変化によるものと捉えている」