แนวคิดหลัก
MLLMは一般的なマルチモーダルデータで訓練されても、ニュース画像キャプションタスクでエンティティを生成する能力が不足している。
บทคัดย่อ
近年、大規模な言語モデル(LLM)は急速に進化しており、多くのMLLMが開発されています。しかし、これらの一般的なMLLMは、ゼロショット設定でエンティティ情報を処理することが得意ではありません。本研究では、2つのマルチモーダルエンティティ重視アラインメントタスクとアラインメントフレームワークを提案しました。これにより、関連性と簡潔さを保ちながら関連する文章を選択し、最高品質のキャプションを生成することが可能です。
สถิติ
GoodNewsデータセットにおけるCIDErスコア:72.33 -> 86.29
NYTimes800kデータセットにおけるCIDErスコア:70.83 -> 85.61
คำพูด
"MLLMは一般的なマルチモーダルデータで訓練されても、ニュース画像キャプションタスクでエンティティを生成する能力が不足している。"
"2つのマルチモーダルエンティティ重視アラインメントタスクとアラインメントフレームワークを提案しました。"