本研究では、画像美的知覚の高度な抽象性に対処するため、包括的に注釈付けされた美的多モーダル命令チューニングデータセット(AesMMIT)を構築しました。具体的には、まず、人間の自然言語フィードバックを収集して美的批評データベース(AesFeedback)を構築し、次にGPTを使ってこれらのフィードバックを命令フォロー形式に変換して、多様な美的知覚次元をカバーする409Kの命令-応答ペアからなるAesMMITデータセットを作成しました。
次に、AesMMITデータセットに基づいて、一般目的の基盤モデルを微調整することで、多様なモダリティ美的専門家モデル(AesExpert)を提案しました。広範な実験の結果、AesExpertモデルは最先端の多モーダル大規模言語モデルよりも大幅に優れた美的知覚パフォーマンスを発揮することが示されました。特に、AesExpert(L-13B)は、美的解釈能力において41.5%、美的共感能力において24.1%の大幅な改善を示しました。これらの結果は、提案したAesMMITデータセットが多モーダル基盤モデルの美的知覚能力を大幅に向上させることができることを示しています。
翻譯成其他語言
從原文內容
arxiv.org
深入探究