Centrala begrepp
テキストから画像への微調整において、報酬モデルの信頼度を考慮することで、過剰最適化を抑制できる。
Sammanfattning
本論文では、テキストから画像への生成タスクにおいて、報酬モデルの過剰最適化の問題を調査している。
- 多様なテキストプロンプト、画像、人間評価からなるベンチマーク「TIA2」を提案した。
- 既存の報酬モデルは人間評価とよく一致しないことを示した。
- 報酬モデルの過剰最適化が生じやすいことを実証した。
- 報酬モデルの信頼度を考慮する「TextNorm」を提案し、過剰最適化を抑制できることを示した。
- ベストオブN サンプリング、教師あり微調整、強化学習ベースの微調整の各手法で、TextNormの有効性を確認した。
Statistik
報酬モデルを過剰に最適化すると、テキスト-画像アラインメントと画像の品質が低下する。
人間評価との乖離が大きい報酬モデルを使うと、過剰最適化が顕著に現れる。
Citat
"Fine-tuning text-to-image models with reward functions trained on human feedback data has proven effective for aligning model behavior with human intent. However, excessive optimization with such reward models, which serve as mere proxy objectives, can compromise the performance of fine-tuned models, a phenomenon known as reward overoptimization."
"To address this, we propose TextNorm, a simple method that enhances alignment based on a measure of reward model confidence estimated across a set of semantically contrastive text prompts."