本チャレンジの目的は、多言語環境における顔声関連付けの影響を分析することである。これは、世界人口の半分が二言語以上を使用し、多言語環境での対話が一般的であるという事実に基づいている。
本チャレンジでは、MAV-Celeb データセットを使用する。このデータセットには154人の有名人が3つの言語(英語、ヒンディー語、ウルドゥー語)で撮影された動画が含まれている。データセットには様々な撮影条件(ポーズ、照明、動き)が含まれており、現実世界に近い環境を再現している。
本チャレンジでは、訓練時と評価時に異なる言語を使用する設定(聞いた言語と聞いたことのない言語)で、顔声関連付けの性能を評価する。参加者には、言語の影響を分析し、言語に依存しない顔声関連付けモデルの開発が期待されている。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询