本研究では、視覚言語モデル (LVLM) の性能を向上させるために、質問の言い換えと補強を行う手法 REPARE を提案している。
まず、質問に含まれる重要な単語、画像キャプション、モデルが生成した根拠を抽出し、それらの情報を用いて質問を言い換えて補強する。次に、生成された質問候補の中から、LVLMの回答の確信度が最も高いものを選択する。
実験の結果、REPARE を適用することで、VQAv2、A-OKVQA、VizWizデータセットにおいて、それぞれ最大3.85%、6.41%、7.94%の正答率の絶対的な向上が確認された。さらに、正解を用いた上限実験では、最大で14.41%の向上が得られた。
分析の結果、REPARE によって生成された質問は、元の質問に比べて統語的・意味的な複雑性が高くなっており、過不足のない質問になっていることが確認された。また、REPARE は視覚情報と言語モデルの相互作用を効果的に活用していることが示された。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Archiki Pras... о arxiv.org 04-03-2024
https://arxiv.org/pdf/2310.05861.pdfГлибші Запити