핵심 개념
서로 상충되는 작업 목표를 처리하기 위해 다양한 음원 분리 작업을 단일 모델로 통합하는 새로운 접근 방식이 제안되었으며, 이 모델은 학습 가능한 프롬프트를 사용하여 분리할 음원을 지정하여 작업별 맞춤형 분리를 가능하게 한다.
본 논문은 음성 향상, 음성 분리, 음향 이벤트 분리, 음악 음원 분리(MSS), 영화 음원 분리(CASS)와 같이 서로 다른 목표를 가진 여러 음원 분리 작업을 단일 모델로 처리하는 데 어려움이 있음을 지적하며, 이러한 문제를 해결하기 위해 작업 인지 통합 음원 분리(TUSS) 모델을 제안한다.
기존의 음원 분리 모델은 특정 데이터 세트와 작업에 맞춰져 있어 다양한 작업에 유연하게 대응하기 어려웠다. 특히, 음악 음원을 분리해야 하는 MSS와 그룹화해야 하는 CASS와 같이 상반되는 목표를 가진 작업을 단일 모델로 처리하는 데에는 한계가 있었다.