本研究は、人体動作と手の動きを統合的に生成する新しい手法「BOTH2Hands」を提案している。
まず、大規模な多モーダルデータセット「BOTH57M」を構築した。このデータセットには、正確な人体と手の動作、および手の動作に関する詳細なテキストアノテーションが含まれている。
次に、「BOTH2Hands」の手法を提案した。この手法は2段階のメカニズムで構成される。第1段階では、身体動作からの手の動作生成と、テキストプロンプトからの手の動作生成の2つの並列のディフュージョンモデルを最適化する。第2段階では、クロスアテンション変換器を使用して、これら2つの条件付き手の動作を融合する。
広範な実験と交差検証により、提案手法の有効性が実証された。また、「BOTH57M」データセットの有用性も示された。特に、テキストプロンプトと身体動作の両方を考慮することで、より生動的で細かい手の動作を生成できることが明らかになった。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Wenqian Zhan... kl. arxiv.org 04-10-2024
https://arxiv.org/pdf/2312.07937.pdfDybere Forespørgsler