이 챌린지는 다국어 환경에서 얼굴과 음성의 연관성을 탐구하는 것을 목표로 한다. 기존 연구에서는 얼굴과 음성의 연관성이 입증되었지만, 다국어 환경에서의 영향은 아직 연구되지 않았다. 이에 따라 이 챌린지에서는 다국어 데이터셋인 MAV-Celeb을 활용하여 다국어 환경에서의 얼굴-음성 연관성을 분석한다.
챌린지의 주요 목표는 다음과 같다:
MAV-Celeb 데이터셋은 영어, 힌디어, 우르두어를 사용하는 154명의 유명인사 영상으로 구성되어 있다. 데이터셋은 다양한 포즈, 조명, 움직임 등의 변화를 포함하고 있다. 챌린지는 훈련 데이터와 테스트 데이터가 서로 다른 언어로 구성된 상황에서 얼굴-음성 연관성 검증 과제를 수행한다.
베이스라인 모델은 얼굴과 음성 특징을 각각 추출하고, 이를 융합하여 얼굴-음성 연관 임베딩을 학습한다. 이 모델은 언어가 다른 경우에도 성능을 보여주지만, 챌린지 참가자들은 이를 개선할 수 있는 새로운 아이디어를 제안할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Muhammad Saa... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09342.pdfPerguntas Mais Profundas