核心概念
視覚言語モデルの性能を向上させるために、質問を言い換えて視覚情報を補強することで、過不足のない質問を生成し、モデルの正答率を高める。
摘要
本研究では、視覚言語モデル (LVLM) の性能を向上させるために、質問の言い換えと補強を行う手法 REPARE を提案している。
まず、質問に含まれる重要な単語、画像キャプション、モデルが生成した根拠を抽出し、それらの情報を用いて質問を言い換えて補強する。次に、生成された質問候補の中から、LVLMの回答の確信度が最も高いものを選択する。
実験の結果、REPARE を適用することで、VQAv2、A-OKVQA、VizWizデータセットにおいて、それぞれ最大3.85%、6.41%、7.94%の正答率の絶対的な向上が確認された。さらに、正解を用いた上限実験では、最大で14.41%の向上が得られた。
分析の結果、REPARE によって生成された質問は、元の質問に比べて統語的・意味的な複雑性が高くなっており、過不足のない質問になっていることが確認された。また、REPARE は視覚情報と言語モデルの相互作用を効果的に活用していることが示された。
统计
視覚言語モデルの性能は質問の表現方法に大きく依存する。
質問の過不足や曖昧さ (underspecification) により、モデルが正しく答えられない場合がある。
質問を言い換えて視覚情報を補強することで、モデルの正答率を最大で14.41%向上させることができる。
引用
"Adding visually-grounded information to the input as a preemptive clarification should improve model performance by reducing underspecification, e.g., by localizing objects and disambiguating references."
"Focusing on the article's core message and underlying intent. Clearly summarize the key concept or main idea that the author aims to convey in a concise statement in "coremsg". Do not start with something like "The core message of this article is..." or "The author argues...". Directly output the main idea."