Conceitos Básicos
실시간 저지연 환경에서 사용자가 지정한 타겟 사운드를 입력 혼합음에서 효과적으로 추출하기 위해 맥락 정보를 활용하는 방법을 제안한다.
Resumo
이 논문은 실시간 저지연 환경에서 사용자가 지정한 타겟 사운드를 입력 혼합음에서 효과적으로 추출하기 위한 맥락 인식 기반 모델을 제안한다.
- 먼저 입력 혼합음의 구성 정보(oracle context)를 모델에 제공하는 eCATSE 모델을 제안하여 맥락 정보의 유용성을 확인한다.
- 실제 환경에서 사용할 수 있도록 입력 혼합음의 구성 정보를 암시적으로 학습하는 iCATSE 모델을 제안한다. 이를 위해 분리 손실과 분류 손실을 함께 최적화한다.
- 실험 결과, 제안된 eCATSE와 iCATSE 모델이 기존 Waveformer 모델 대비 우수한 성능을 보였다. 특히 iCATSE는 별도의 oracle context 정보 없이도 성능 향상을 달성했다.
- 단일 타겟 추출 실험에서는 맥락 정보 활용이 중요하며, 다중 타겟 추출 학습이 필수적임을 확인했다.
Estatísticas
입력 혼합음의 신호 대 잡음비(SNR)은 15-25 dB 범위로 설정되었다.
1개, 2개, 3개의 타겟 사운드를 추출하는 실험을 수행했다.
제안된 eCATSE 모델은 1개 타겟 추출 시 11.22 dB의 SI-SNRi 성능을 보였다.
제안된 iCATSE 모델은 1개 타겟 추출 시 9.53 dB의 SI-SNRi 성능을 보였다.
Citações
"실시간 저지연 환경에서 사용자가 지정한 타겟 사운드를 입력 혼합음에서 효과적으로 추출하기 위해 맥락 정보를 활용하는 방법을 제안한다."
"제안된 eCATSE와 iCATSE 모델이 기존 Waveformer 모델 대비 우수한 성능을 보였다."
"단일 타겟 추출 실험에서는 맥락 정보 활용이 중요하며, 다중 타겟 추출 학습이 필수적임을 확인했다."