核心概念
マルチモーダル大規模言語モデルを活用して、テキストから画像生成のための大規模で高品質な好みデータセットVisionPreferを構築し、それを用いて生成モデルの人間好みへの整合性を大幅に向上させることができる。
要約
本研究では、テキストから画像生成の分野において、マルチモーダル大規模言語モデルを活用して、大規模で高品質な好みデータセットVisionPreferを構築した。VisionPreferは、プロンプトの忠実性、美的、忠実性、無害性の4つの側面にわたる詳細な好み評価を含む。
具体的には以下の通り:
- VisionPreferは179Kのプロンプトと120万件の好み選択を含む、最大規模のテキストから画像生成の好みデータセットである。
- VisionPreferのアノテーションはマルチモーダル大規模言語モデルGPT-4 Visionによって行われ、数値的な好み評価と詳細なテキストによる説明を提供する。
- VisionPreferに基づいて構築したリワードモデルVP-Scoreは、既存の人間アノテーションデータセットに基づくリワードモデルと比較して同等以上の性能を示した。
- VisionPreferを用いて生成モデルを最適化することで、プロンプトの忠実性、美的、忠実性、無害性の各側面において大幅な性能向上が確認された。
- 更なる分析により、マルチモーダル大規模言語モデルによるアノテーションが人間アノテーションと同等の品質を持つことが示された。
以上より、マルチモーダル大規模言語モデルを活用したデータ合成とモデル最適化は、テキストから画像生成分野における人間好みへの整合性向上に有効な手法であることが明らかになった。
統計
生成モデルをVisionPreferで最適化した場合、NSFW画像の生成率が他の手法と比べて4.8倍低下した。
VisionPreferで最適化した生成モデルは、手の形状を正確に表現できる一方、他の手法では手の歪みが見られた。
VisionPreferで最適化した生成モデルは、プロンプトに忠実な画像を生成できる一方、他の手法では一部のプロンプト要素が欠落していた。
引用
"マルチモーダル大規模言語モデルを活用して、テキストから画像生成のための大規模で高品質な好みデータセットVisionPreferを構築し、それを用いて生成モデルの人間好みへの整合性を大幅に向上させることができる。"
"VisionPreferは179Kのプロンプトと120万件の好み選択を含む、最大規模のテキストから画像生成の好みデータセットである。"
"VisionPreferのアノテーションはマルチモーダル大規模言語モデルGPT-4 Visionによって行われ、数値的な好み評価と詳細なテキストによる説明を提供する。"