핵심 개념
오디오-비주얼 콘포머를 활용한 웨이크 워드 스포팅 시스템의 성능 향상
초록
최근의 신경망 기반 웨이크 워드 스포팅은 깨끗한 오디오 샘플에서 우수한 성능을 보이지만 소음이 있는 환경에서 어려움을 겪음.
오디오-비주얼 웨이크 워드 스포팅은 시각적 입술 움직임 정보가 복잡한 음향 장면에 영향을 받지 않기 때문에 주목을 받음.
본 논문에서는 프레임 수준 교차 모달 주의력(FLCMA) 모듈을 제안하여 AVWWS 시스템의 성능을 향상시킴.
FLCMA 모듈은 프레임 수준에서 동기화된 입술 움직임과 음성 신호를 통해 다중 모달 정보를 모델링하는 데 도움을 줌.
제안된 시스템은 MISP 데이터셋에서 새로운 최고 성적(4.57% WWS 점수)을 달성함.
통계
이 모듈은 프레임 수준에서 다중 모달 시맨틱 정보를 모델링합니다.
제안된 시스템은 MISP 데이터셋에서 새로운 최고 성적(4.57% WWS 점수)을 달성합니다.
인용구
"오디오-비주얼 웨이크 워드 스포팅 시스템의 성능을 향상시키기 위해 FLCMA 모듈을 도입합니다."
"FLCMA 모듈은 프레임 수준에서 동기화된 입술 움직임과 음성 신호를 통해 다중 모달 정보를 모델링합니다."