이 연구는 비디오 질문 답변(OE-VQA) 문제에서 불충분한 레이블 문제를 다룬다. OE-VQA는 주어진 비디오와 질문에 대해 대규모 어휘에서 정답을 찾는 다중 레이블 분류 문제이다. 그러나 기존 벤치마크에서는 비용 문제로 인해 각 질문당 단 하나의 정답만 제공되는 등 레이블이 극도로 부족한 문제가 있다.
이 연구에서는 RADI라는 순위 증류 프레임워크를 제안한다. RADI는 불완전한 레이블로 학습된 교사 모델을 활용하여 답변 순위를 생성하고, 이를 학생 모델의 학습에 활용한다. 이를 통해 불충분한 레이블 정보를 보완할 수 있다. 또한 RADI의 강건성을 높이기 위해 적응형 쌍대 순위 증류와 부분 리스트 순위 증류 방법을 제안한다.
실험 결과, RADI는 다양한 OE-VQA 벤치마크에서 기존 최신 모델들을 뛰어넘는 성능을 보였다. 특히 불충분한 레이블 문제가 심각한 iVQA 데이터셋에서 큰 성능 향상을 보였다. 추가 분석을 통해 RADI의 강건성과 효과성을 입증하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tianming Lia... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14430.pdfYêu cầu sâu hơn