본 논문에서는 오디오, 비주얼 및 텍스트 정보를 통합하여 다국어 비주얼 답변 지역화(MVAL) 작업의 성능을 향상시키는 새로운 방법인 AVTSL(Audio-Visual-Textual Span Localization)을 제안합니다. MVAL은 주어진 다국어 질문에 대한 답변이 되는 비디오 구간을 찾는 것을 목표로 합니다. 기존 방법들은 비주얼 정보에만 집중하거나 비주얼 및 자막 정보만 통합하는 데 그쳤습니다. 그러나 이러한 방법들은 비디오의 오디오 정보를 무시하여 입력 정보의 불완전성을 초래하고 MVAL 작업의 성능 저하로 이어집니다.
본 논문에서 제안하는 AVTSL 방법은 오디오 정보를 통합하여 MVAL 작업을 위한 비주얼 및 텍스트 표현을 모두 강화합니다. 구체적으로, 세 가지 모달리티(오디오, 비주얼, 텍스트)의 특징을 통합하고, 융합된 모달리티의 고유한 기여에 맞춰 조정된 세 가지 예측기(오디오-비주얼 예측기, 비주얼 예측기, 텍스트 예측기)를 개발합니다. 각 예측기는 해당 모달리티를 기반으로 예측을 생성합니다. 예측 결과 간의 일관성을 유지하기 위해 오디오-비주얼-텍스트 일관성 모듈을 도입했습니다. 이 모듈은 Dynamic Triangular Loss(DTL) 함수를 사용하여 각 모달리티의 예측기가 다른 모달리티의 예측기로부터 동적으로 학습할 수 있도록 합니다. 이러한 협업 학습을 통해 모델은 일관되고 포괄적인 답변을 생성할 수 있습니다.
특징 추출: 비디오 프레임에서 I3D 모델을 사용하여 비주얼 특징을 추출하고, wav2vec 모델을 사용하여 오디오 특징을 추출합니다. 자막 텍스트는 Whisper 모델을 사용하여 추출하고, 질문과 자막 텍스트는 DeBERTa 모델을 사용하여 인코딩합니다.
멀티모달 융합: 텍스트-비주얼/오디오 상호 작용 모듈을 사용하여 텍스트, 비주얼 및 오디오 모달리티 간의 상호 작용을 캡처합니다. 컨텍스트 쿼리 어텐션(CQA) 모델을 사용하여 텍스트 정보를 기반으로 관련성 있는 비주얼 및 오디오 정보를 강조합니다. 또한, 멀티 헤드 어텐션 메커니즘을 사용하여 세 가지 모달리티의 융합된 표현을 얻습니다.
오디오-비주얼-텍스트 일관성: 세 가지 예측기(오디오-비주얼, 비주얼, 텍스트)를 공동으로 학습하여 각 모달리티의 강점을 활용합니다. 각 예측기의 출력을 다른 두 예측기에 대한 의사 레이블로 사용하여 일관성을 유지합니다. Dynamic Triangular Loss(DTL) 함수를 사용하여 각 예측기의 출력과 정답 간의 불일치뿐만 아니라 다른 두 예측기의 출력 간의 불일치를 최소화합니다.
MMIVQA 데이터셋을 사용한 실험 결과, AVTSL 방법은 여러 최첨단(SOTA) 방법보다 성능이 뛰어나 오디오 정보를 통합할 때의 효과를 입증했습니다. 특히, 기존의 비주얼 기반 방법, 텍스트 기반 방법, 오디오-비주얼 융합 방법과 비교했을 때 모든 평가 지표에서 AVTSL 방법이 더 높은 성능을 보였습니다.
본 논문에서 제안한 AVTSL 방법은 오디오 정보를 통합하여 MVAL 작업의 성능을 향상시키는 효과적인 방법임을 확인했습니다. AVTSL 방법은 멀티모달 정보의 일관성과 상보성을 효과적으로 활용하여 보다 정확하고 포괄적인 비디오 답변 지역화를 가능하게 합니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies