Core Concepts
복잡한 환경에서 발생하는 다중 음원 및 배경 소음으로 인한 오디오-비주얼 특징 간 상호작용의 어려움을 해결하기 위해, 양자화 기반 의미 분해 기법을 제안하여 오디오 특징을 효과적으로 분해하고 시각 특징과 결합함으로써 강건한 오디오-비주얼 세그멘테이션을 달성한다.
Abstract
이 논문은 복잡한 환경에서의 오디오-비주얼 세그멘테이션(AVS) 문제를 다룬다. AVS는 비디오 내 소리 나는 객체를 세그멘테이션하고 그 클래스를 예측하는 과제이다. 다중 음원과 배경 소음이 존재하는 경우, 오디오와 시각 특징 간 상호작용이 어려워져 AVS 성능이 저하된다.
이를 해결하기 위해 저자들은 양자화 기반 의미 분해 기법을 제안한다. 다중 음원 오디오 특징을 단일 음원 특징으로 분해하여 각 음원에 대한 시각 특징과의 상호작용을 강화한다. 또한 전역 수준의 안정적인 오디오 특징을 활용하여 프레임 단위 오디오 특징을 보정하는 global-to-local 메커니즘을 도입한다.
실험 결과, 제안 방법은 기존 최신 방법 대비 AVS-Semantic 벤치마크에서 21.2% mIoU 향상을 보였다. 이는 다중 음원 및 배경 소음 환경에서 오디오-비주얼 상호작용을 효과적으로 수행할 수 있음을 보여준다.
Stats
다중 음원 오디오 환경에서 제안 방법은 기존 최신 방법 대비 AVS-Object-Multi 데이터셋에서 8.7 J&F 향상을 보였다.
복잡한 의미 공간을 가진 AVS-Semantic 데이터셋에서 제안 방법은 기존 최신 방법 대비 21.2% mIoU 향상을 보였다.
Quotes
"복잡한 엔탱글먼트와 (2) 다양한 소리 이벤트의 빈번한 변화로 인해 오디오와 시각 콘텐츠 간 강건한 대응 관계를 수립하는 것이 독특한 도전과제이다."
"다중 음원 의미 공간은 단일 음원 하위 공간의 카르테시안 곱으로 표현될 수 있다는 가정 하에, 우리는 단일 음원 의미를 더 효과적으로 시각 콘텐츠와 상호작용하기 위해 분해하고자 한다."