本論文では、「Emo3D」と呼ばれる包括的な「テキスト-画像-表情」データセットを紹介する。このデータセットは、広範囲の人間の感情、それぞれに対応する画像、および3Dブレンドシェイプを網羅している。大規模言語モデル(LLM)を活用して、多様な感情表現を含むテキストの記述を生成することで、広範囲の感情表現を捉えることができた。この独自のデータセットを使用して、言語ベースのモデルのファインチューニングや、Contrastive Language Image Pretraining (CLIP)などのビジョン-言語モデルの3Dフェイシャル表情合成に関する包括的な評価を行った。また、この課題のための新しい評価指標「Emo3D」を導入した。Emo3Dは、3Dフェイシャル表情における視覚-テキストの整合性とセマンティックの豊かさを評価するのに優れている。「Emo3D」は、アニメーション設計、バーチャルリアリティ、感情的なヒューマン-コンピューター対話などの分野で大きな応用が期待される。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Mahshid Dehg... klo arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02049.pdfSyvällisempiä Kysymyksiä