核心概念
視覚的根付けに基づくVQAの偏りの軽減手法は、適切な視覚的根付けを実現するのではなく、単なる正則化効果によって性能向上を実現している。
摘要
本研究では、視覚的根付けに基づくVQAの偏りの軽減手法について分析を行った。
- 従来の手法は、人間の注意マップなどの視覚的手がかりを使って、モデルが関連する視覚領域に注目するよう訓練するが、この手法では適切な視覚的根付けが実現されているわけではないことが分かった。
- 代わりに、関連のない視覚領域や無作為な視覚領域を使っても同程度の性能向上が得られることが示された。
- また、これらの手法は訓練精度を低下させることで、言語的偏りを忘れさせることで性能向上を実現していることが分かった。
- 著者らは、単純な正則化手法でも同程度の性能向上が得られることを示し、現在の視覚的根付けに基づく手法は適切な視覚的理解を実現しているわけではないと主張している。
- 今後の研究では、適切な視覚的根付けを評価する方法の開発が重要であると指摘している。
統計資料
基準モデルのVQA-CPv2テストセットの精度は40.1%である。
視覚的根付けを用いた手法(HINT, SCR)は、VQA-CPv2テストセットの精度を48.2%から49.1%まで向上させた。
関連のない視覚領域や無作為な視覚領域を使った場合でも、同程度の精度向上が得られた。
引述
"視覚的根付けに基づく偏りの軽減手法の性能向上は、適切な視覚的根付けの実現によるものではなく、単なる正則化効果によるものである。"
"適切な視覚的根付けを実現しているかどうかを評価する新しい指標を提案した。"