Core Concepts
人間の嗜好の多様性に対応するため、パーソナライゼーションと嗜好の集約の2つのアプローチを提案し、理論的な保証を示した。
Abstract
本論文では、人間の嗜好の多様性に対応するためのRLHFの2つのアプローチを提案している。
パーソナライゼーションアプローチ
表現学習に基づくパーソナライゼーション: 多様なデータを活用して表現を学習することで、個人の報酬関数の推定精度を向上させる。理論的な保証を示した。
クラスタリングに基づくパーソナライゼーション: ユーザーをクラスタリングし、クラスタ内でパーソナライゼーションを行う。
嗜好の集約アプローチ
報酬の集約: 個人の報酬関数を推定し、集約ルールを用いて単一の報酬関数を得る。理論的な保証を示した。
嗜好の集約: 確率的な意見データを直接集約する。戦略的な人間ラベラーにも対応できるメカニズムを提案した。
これらのアプローチにより、人間の嗜好の多様性に対応したRLHFの実現が可能となる。
Stats
人間の嗜好は多様であり、単一の報酬関数では表現できない可能性がある。
個人のデータが少ないと、報酬関数の推定精度が低下する可能性がある。
人間ラベラーが戦略的に振る舞う可能性があり、真の嗜好を報告しない可能性がある。
Quotes
"Contrary to the assumption of "homogeneity" in reward valuation, humans assign "heterogeneous" reward values to the same question-and-answer pairs, especially for sensitive and open-ended questions, depending on their background."
"Intuitively, one could consider creating tailored LLMs for each human user who provides their own personalized data. However, this method might be inadequate due to the limited data available for each individual, potentially leading to inaccurate reward estimations and reduced precision in LLMs due to high variance."
"humans are by nature rational (of certain degrees) and strategic, with their own objectives to optimize. They might manipulate their own feedback by not providing truthful one, to distort the aggregated results to be closer to their own preferences, and thus manipulate the output of LLMs fine-tuned over the aggregated preference data."