이 논문은 오디오-비주얼 목표 화자 음성 추출(AV-TSE) 기술을 다룹니다. AV-TSE는 로봇공학 및 다양한 오디오-비주얼 응용 분야에서 핵심 기술 중 하나입니다. AV-TSE의 주요 과제 중 하나는 오디오-비주얼 동기화 정보를 효과적으로 활용하는 것입니다.
저자들은 AV-HuBERT라는 사전 학습된 모델을 AV-TSE 시스템에 통합하는 방법을 탐구했습니다. AV-HuBERT는 립 리딩 작업에서 뛰어난 성과를 보였으며, 오디오-비주얼 동기화 정보를 잘 포착할 수 있습니다. 저자들은 AV-HuBERT의 활용이 AV-TSE 성능 향상에 도움이 될 것으로 기대했습니다.
또한 저자들은 자기 지도 학습을 위한 새로운 마스크-복구(MAR) 전략을 제안했습니다. MAR 전략은 오디오-비주얼 간 상관관계와 음성 문맥 정보를 활용하여 AV-TSE 성능을 향상시킵니다.
실험 결과, 제안된 AVHuMAR-TSE 시스템이 기존 베이스라인 시스템들에 비해 주관적 및 객관적 지표에서 모두 우수한 성능을 보였습니다. 이는 사전 학습된 AV-HuBERT 모델과 MAR 전략이 효과적으로 오디오-비주얼 상관관계와 음성 문맥 정보를 활용할 수 있음을 보여줍니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Wenxuan Wu,X... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16078.pdfDeeper Inquiries