이 논문은 단일 소스 오디오 샘플에 대한 접근 없이도 언어 정보를 활용하여 오디오 혼합물에서 단일 소스 신호를 효과적으로 분리할 수 있는 일반화된 약한 감독 학습 프레임워크를 제안한다.
주요 내용은 다음과 같다:
오디오 모달리티와 언어 모달리티 간의 의미적 유사성을 활용하여 언어 정보로부터 단일 소스 오디오에 대한 약한 감독 신호를 생성하는 방법을 제안한다. 이를 위해 사전 학습된 CLAP 모델을 활용한다.
제안한 약한 감독 학습 프레임워크를 순수 비지도 학습 설정에 통합하여 기존 비지도 방법들에 비해 큰 성능 향상을 달성한다. 특히 2-소스 분리 테스트에서 기존 방법 대비 최대 129%의 SDR 향상을 보인다.
제안 방법을 반지도 학습 설정에 통합하여, 소수의 단일 소스 데이터만을 활용하는 지도 학습 방법 대비 최대 17%의 SDR 향상을 달성한다. 이는 제안 방법이 지도 학습에 대한 강력한 정규화 메커니즘을 제공함을 보여준다.
다양한 실험을 통해 제안 방법의 우수성을 검증하며, 언어-오디오 간 멀티모달 임베딩 모델의 활용이 약한 감독 신호 생성에 핵심적임을 확인한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询