Core Concepts
LVLMはアート作品に関する知識を適切に理解し、説明を生成する能力に制限がある。
Abstract
大規模ビジョン言語モデル(LVLM)は画像と指示からテキストを出力し、テキスト生成と理解の高度な能力を示しています。しかし、LVLMが画像の説明に必要な知識や複雑な関係、そしてこれらの理解をどの程度統合しているかは明確ではありません。この問題に対処するため、新しいタスク「アート作品解説生成タスク」を提案し、その評価データセットとメトリックを提示します。このタスクは、画像とアート作品のタイトルから説明を生成することでLVLMの言語ベースおよびビジョンベースの知識を評価します。さらに、アート作品に関する知識を組み込んだ説明学習用のトレーニングデータセットも公開されています。研究結果は、LVLMが言語と視覚情報を統合する際に苦労していることや、画像だけから知識を取得する際にも制限があることを示しています。
Stats
LVLMはアート作品解説生成タスクで苦労している。
LVLMは画像だけから知識取得で制限がある。
Quotes
"我々の研究では、LVLMが基本的なLLMから芸術的知識を保持し活用している一方で、実践ではわずかな損失が見られます。"
"純粋な視覚情報だけでテキスト生成する難しさは、高度なGPT-4-Visionなどすべてのモデルにおいても顕著です。"