이 연구는 비디오 질문 답변(OE-VQA) 문제에서 불충분한 레이블 문제를 다룬다. OE-VQA는 주어진 비디오와 질문에 대해 대규모 어휘에서 정답을 찾는 다중 레이블 분류 문제이다. 그러나 기존 벤치마크에서는 비용 문제로 인해 각 질문당 단 하나의 정답만 제공되는 등 레이블이 극도로 부족한 문제가 있다.
이 연구에서는 RADI라는 순위 증류 프레임워크를 제안한다. RADI는 불완전한 레이블로 학습된 교사 모델을 활용하여 답변 순위를 생성하고, 이를 학생 모델의 학습에 활용한다. 이를 통해 불충분한 레이블 정보를 보완할 수 있다. 또한 RADI의 강건성을 높이기 위해 적응형 쌍대 순위 증류와 부분 리스트 순위 증류 방법을 제안한다.
실험 결과, RADI는 다양한 OE-VQA 벤치마크에서 기존 최신 모델들을 뛰어넘는 성능을 보였다. 특히 불충분한 레이블 문제가 심각한 iVQA 데이터셋에서 큰 성능 향상을 보였다. 추가 분석을 통해 RADI의 강건성과 효과성을 입증하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문