Core Concepts
기존 시각적 근거 기반 VQA 방법은 데이터셋의 편향성과 우연한 통계적 상관관계를 이용하여 정답을 도출하고 있으며, 올바른 이유로 정답을 내놓지 못하고 있다.
Abstract
기존 VQA 방법은 데이터셋의 편향성과 우연한 통계적 상관관계를 이용하여 정답을 도출하는 경향이 있다. 이를 해결하기 위해 최근 VQA 편향 완화 방법들은 시각적 단서(예: 사람의 주의 맵)를 활용하여 VQA 모델의 시각적 근거를 강화하는 방식을 제안하였고, 이를 통해 큰 성능 향상을 보였다.
그러나 저자들은 이러한 성능 향상이 실제 시각적 근거 강화에 의한 것이 아니라, 언어적 편향 학습을 방지하는 정규화 효과에 의한 것임을 보였다. 예를 들어, 적절한 사람 기반 단서를 제공하는 것이 아니라 무작위 단서를 제공해도 유사한 성능 향상이 나타났다.
이러한 관찰을 바탕으로 저자들은 외부 주석 없이도 훈련 정확도를 저하시켜 언어적 편향을 잊게 만드는 간단한 정규화 방식을 제안하였고, 이를 통해 VQA-CPv2에서 거의 최신 수준의 성능을 달성하였다.
저자들은 시각적 근거가 여전히 유용한 연구 방향이라고 믿지만, 현재 방법들이 실제 시각적 근거를 달성하고 있는지 확인하기 위한 더 나은 실험 설계가 필요하다고 제안한다.
Stats
기존 VQA 방법은 언어적 편향을 이용하여 정답을 도출하므로 VQA-CPv2 테스트 셋에서 실패한다.
시각적 근거 강화 방법(HINT, SCR)은 기존 방법 대비 8-10% 정확도 향상을 보였다.
시각적 근거 강화 방법을 무관련/무작위 단서로 학습해도 유사한 성능 향상이 나타났다.
시각적 근거 강화 방법과 기본 방법 간 예측 결과의 통계적 차이는 유의미하지 않았다.
시각적 근거 강화 방법은 훈련 정확도를 크게 저하시켰다.
Quotes
"기존 VQA 모델은 종종 표면적인 통계적 편향을 이용하여 응답을 생성하고, 올바른 이유로 정답을 내놓지 못한다."
"시각적 근거 강화 방법의 성능 향상은 실제 시각적 근거 강화에 의한 것이 아니라, 언어적 편향 학습을 방지하는 정규화 효과에 의한 것이다."