Core Concepts
오디오 품질에 기반한 다중 전략 접근 방법은 대상 화자 추출 작업에서 성공적으로 적용되었습니다.
Abstract
이 논문은 MISP 2023 Challenge에서 오디오-시각 대상 화자 추출 작업에 대한 다중 전략 접근 방법을 설명합니다.
접근 방법은 오디오 품질에 따라 다른 추출 전략을 채택하여 ASR 시스템에 이점을 제공합니다.
실험 결과는 접근 방법이 도달한 문자 오류율(CER)을 보여주며, 도전 과제에서 2위를 차지했습니다.
접근 방법은 오디오 품질에 따라 다른 처리 전략을 적용하고, 다중 채널 융합 방법 및 노이즈 감소 모델을 활용합니다.
훈련 프로세스는 시뮬레이션 데이터를 사용하여 전단 시스템의 사전 훈련을 진행하고, 실제 데이터에서 백엔드 ASR 시스템과의 공동 훈련을 수행합니다.
실험 결과는 접근 방법이 다른 모델들에 비해 우수한 성능을 보여주며, MISP 2023 Challenge에서 2위를 차지했음을 확인합니다.
Stats
실험 결과에 따르면, Dev 세트에서 CER은 24.2%, Eval 세트에서는 33.2%입니다.
DNSMOS OVRL 점수는 1.47로 측정되었습니다.
Quotes
"오디오 품질에 따라 다른 처리 전략을 적용하고, 다중 채널 융합 방법 및 노이즈 감소 모델을 활용합니다."
"실험 결과는 접근 방법이 다른 모델들에 비해 우수한 성능을 보여주며, MISP 2023 Challenge에서 2위를 차지했음을 확인합니다."