이 논문은 음성-얼굴 연관 학습을 위한 새로운 프레임워크인 FAA(Fuse after Align)를 제안한다. 주요 내용은 다음과 같다:
다중 모달 인코더를 사용하여 음성과 얼굴 간의 관계를 더 깊이 있고 다양하게 학습한다. 이를 통해 기존 방식의 코사인 유사도나 L2 거리 측정보다 향상된 성능을 달성할 수 있다.
모달리티 정렬과 직접적인 교차 모달리티 학습을 동시에 수행하는 혼합 학습 목표를 제안한다. 이를 통해 모달리티 정렬 결과와 교차 모달리티 학습 성능을 모두 향상시킬 수 있다.
다양하고 어려운 학습 샘플을 생성하는 효과적인 쌍 선택 방법을 제안한다. 이를 통해 모델의 일반화 성능과 강건성을 높일 수 있다.
실험 결과, 제안한 FAA 프레임워크가 음성-얼굴 매칭, 검증, 검색 작업에서 최신 기술 수준을 달성하였다. 검증 성능은 약 3%, 매칭 성능은 약 2.5%, 검색 성능은 약 1.3% 향상되었다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania