Core Concepts
오디오-비주얼 정보를 상호 조건으로 활용하여 화자 음성 추출 성능을 향상시킴
Abstract
이 논문은 화자 음성 추출 작업에서 오디오와 비주얼 정보의 불균형 문제를 해결하기 위한 새로운 접근법을 제안한다. 제안하는 AVSepChain 모델은 화자 음성 추출 작업을 두 단계로 나누어 수행한다.
첫 번째 단계인 음성 인지 단계에서는 오디오 정보가 주요 모달리티로 사용되며, 비주얼 정보는 조건부 모달리티로 활용된다. 두 번째 단계인 음성 생성 단계에서는 이 관계가 역전되어 비주얼 정보가 주요 모달리티가 되고 오디오 정보가 조건부 모달리티로 사용된다. 이를 통해 모달리티 간 불균형 문제를 완화할 수 있다.
또한 생성된 음성과 입술 움직임 간의 의미적 일관성을 보장하기 위해 대조적 의미 매칭 손실 함수를 도입하였다. 이를 통해 생성된 음성이 입술 움직임과 동일한 의미 정보를 전달하도록 한다.
실험 결과, 제안하는 AVSepChain 모델이 기존 최신 기법들을 크게 능가하는 성능을 보였다. 특히 음성 품질과 음성 인식 정확도 측면에서 두드러진 성과를 달성하였다.
Stats
화자 음성 추출 작업에서 제안 모델의 SI-SNRi 성능은 15.3dB로 기존 최고 성능 대비 1.2dB 향상되었다.
제안 모델의 PESQ 점수는 3.26으로 기존 최고 성능 대비 0.11점 향상되었다.
제안 모델의 WER은 20.2%로 기존 최고 성능 대비 4.6%p 감소하였다.
Quotes
"화자 음성 추출 작업에서 시각 정보의 중요성이 충분히 고려되지 않아 오디오 정보에 의해 주도되는 경향이 있다."
"제안하는 AVSepChain은 화자 음성 추출 작업을 두 단계로 나누어 오디오와 비주얼 정보의 역할을 동적으로 전환함으로써 모달리티 불균형 문제를 해결한다."
"생성된 음성과 입술 움직임 간의 의미적 일관성을 보장하기 위해 대조적 의미 매칭 손실 함수를 도입하였다."