本論文では、「Emo3D」と呼ばれる包括的な「テキスト-画像-表情」データセットを紹介する。このデータセットは、広範囲の人間の感情、それぞれに対応する画像、および3Dブレンドシェイプを網羅している。大規模言語モデル(LLM)を活用して、多様な感情表現を含むテキストの記述を生成することで、広範囲の感情表現を捉えることができた。この独自のデータセットを使用して、言語ベースのモデルのファインチューニングや、Contrastive Language Image Pretraining (CLIP)などのビジョン-言語モデルの3Dフェイシャル表情合成に関する包括的な評価を行った。また、この課題のための新しい評価指標「Emo3D」を導入した。Emo3Dは、3Dフェイシャル表情における視覚-テキストの整合性とセマンティックの豊かさを評価するのに優れている。「Emo3D」は、アニメーション設計、バーチャルリアリティ、感情的なヒューマン-コンピューター対話などの分野で大きな応用が期待される。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Mahshid Dehg... ב- arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02049.pdfשאלות מעמיקות