핵심 개념
시각 사전 훈련과 교차 모달 퓨전을 통해 음성-시각 연설 인식을 향상시키는 새로운 기법 소개
초록
최근 연구에서 저품질 비디오에서 음성-시각 연설 인식 시스템의 성능 향상이 관찰됨
두 가지 혁신적인 기술 제안: 입술 모양과 음절 수준의 음소 단위 간 상관관계 탐색 및 오디오-가이드된 교차 모달 퓨전 인코더(CMFE)
MISP2021-AVSR 데이터 세트에서 실험을 통해 제안된 두 기술의 효과적임을 입증
상태-of-the-art 시스템보다 더 나은 성능 달성
통계
"MISP2021-AVSR 데이터 세트에서 두 제안된 기술의 효과를 보여줌"
"최종 시스템이 더 나은 성능을 달성"
인용구
"입술 모양과 음절 수준의 음소 단위 간 상관관계를 탐색"
"오디오-가이드된 교차 모달 퓨전 인코더(CMFE)를 제안"