本研究では、言語記述と3Dシーンの両方を考慮した人間動作の生成に取り組んでいる。従来の手法では、言語記述と3Dシーンの複雑な相互作用を直接モデル化することが困難であり、特に訓練データが限定的な場合に性能が低下していた。
本研究では、3Dシーンアフォーダンスを中間表現として活用することで、この課題に対処している。具体的には以下の2段階のモデルを提案している:
アフォーダンス拡散モデル(ADM): 3Dシーンと言語記述から、アフォーダンスマップを生成する。アフォーダンスマップは、人間の関節と3Dシーンの表面点との距離を表したものであり、人間-シーン間の相互作用を表現する。
アフォーダンス-動作拡散モデル(AMDM): 生成されたアフォーダンスマップと言語記述を入力として、人間動作を生成する。
この2段階のアプローチにより、言語記述と3Dシーンの両方を考慮した人間動作の生成が可能になる。特に、訓練データが限定的な場合でも、アフォーダンスマップを介して3Dシーンの幾何学的情報を活用できるため、優れた一般化性能を発揮する。
実験の結果、提案手法は既存手法と比べて、HumanML3Dおよび HUMANISE ベンチマークにおいて優れた性能を示した。さらに、これまで見たことのない3Dシーンと言語記述に対しても、高品質な人間動作を生成できることが確認された。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Zan Wang,Yix... : arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18036.pdfDaha Derin Sorular