이 논문은 오디오-비주얼 질문 답변(AVQA) 과제에서 데이터 편향 문제를 해결하기 위한 방법을 제안한다.
첫째, 기존 AVQA 데이터셋의 한계를 극복하기 위해 MUSIC-AVQA-R이라는 새로운 데이터셋을 구축했다. 이 데이터셋은 기존 MUSIC-AVQA 데이터셋의 테스트 데이터를 재구성하여 질문의 다양성과 분포 편향을 도입했다. 이를 통해 모델의 일반화 성능을 정확하게 평가할 수 있다.
둘째, 다각도 주기적 협력 디바이어싱(MCCD) 전략을 적용한 강건한 AVQA 모델을 제안했다. MCCD는 단일 모달리티 편향과 다중 모달리티 예측 간의 차이를 극대화하고, 단일 모달리티 예측 간의 유사성을 유지하는 방식으로 편향을 극복한다.
실험 결과, 제안한 모델이 기존 AVQA 모델보다 MUSIC-AVQA 데이터셋에서 4.53%, MUSIC-AVQA-R 데이터셋에서 9.68% 향상된 성능을 보였다. 이를 통해 제안 방법의 우수성과 기존 AVQA 모델의 편향 취약성을 확인할 수 있다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések