本研究は、大規模視覚言語モデル(LVLM)が生成する詳細な視覚記述(FGVD)の質を、独自性と忠実性の2つの観点から評価している。
独自性の評価では、TRAC(Textual Retrieval-Augmented Classification)フレームワークを提案し、LVLMが生成したFGVDがどの程度カテゴリを正確に識別できるかを検証した。結果、MiniGPT-4が他のモデルに比べて優れた独自性を示した。
忠実性の評価では、CLIP埋め込み類似度とStable Diffusionによる画像再構築を用いて、生成されたFGVDが元の画像の視覚情報を適切に保持しているかを確認した。ここでもMiniGPT-4が最も高い忠実性を示した。
一方、LVLMにはハルシネーション(幻覚)の問題が見られ、生成された記述に元の画像とは関係のない情報が含まれる傾向がある。この問題は、記述の長さが増えるほど顕著になることが分かった。
本研究は、LVLMの詳細な視覚記述生成能力を多角的に評価し、その長所と課題を明らかにした。特にMiniGPT-4の優れた性能を示すとともに、ハルシネーション問題への対策の必要性を指摘している。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuhang Huang... lúc arxiv.org 04-29-2024
https://arxiv.org/pdf/2404.17534.pdfYêu cầu sâu hơn