Core Concepts
본 연구는 오디오와 비주얼 단서를 활용하여 정확한 룸 임펄스 응답을 추정하는 새로운 멀티모달 멀티태스크 학습 접근법을 제안한다.
Abstract
본 연구는 오디오-비주얼 룸 임펄스 응답 추정(AV-RIR)이라는 새로운 멀티모달 멀티태스크 학습 접근법을 제안한다. AV-RIR은 음성 신호와 해당 환경의 비주얼 단서를 입력으로 받아 정확한 룸 임펄스 응답(RIR)을 추정한다.
AV-RIR은 다음과 같은 핵심 구성요소를 포함한다:
음성, 비주얼 단서, 그리고 새로 제안한 Geo-Mat 특징을 효과적으로 활용하는 신경망 코덱 기반의 멀티모달 아키텍처
보조 과제로 음성 디리버버레이션을 해결하여 RIR 추정을 학습하는 멀티태스크 학습 접근법
이미지-RIR 검색을 통해 추정된 RIR의 후반 잔향 성분을 개선하는 CRIP(Contrastive RIR-Image Pre-training)
실험 결과, AV-RIR은 기존 오디오 전용 및 비주얼 전용 접근법 대비 RIR 추정 성능을 36%-63% 향상시켰다. 또한 AV-RIR로 예측된 디리버버레이션 음성은 다양한 음성 언어 처리 작업에서 경쟁력 있는 성능을 보였다.
Stats
제안한 AV-RIR 접근법은 기존 오디오 전용 접근법 대비 RIR 추정 성능을 36%-63% 향상시켰다.
AV-RIR로 예측된 디리버버레이션 음성은 다양한 음성 언어 처리 작업에서 경쟁력 있는 성능을 보였다.
AV-RIR의 CRIP 모듈은 추정된 RIR의 후반 잔향 성분을 86% 개선하였다.
Quotes
"AV-RIR은 오디오와 비주얼 단서를 활용하여 정확한 룸 임펄스 응답을 추정하는 새로운 멀티모달 멀티태스크 학습 접근법이다."
"AV-RIR은 기존 오디오 전용 및 비주얼 전용 접근법 대비 RIR 추정 성능을 36%-63% 향상시켰다."
"AV-RIR로 예측된 디리버버레이션 음성은 다양한 음성 언어 처리 작업에서 경쟁력 있는 성능을 보였다."