本研究は、完全な身体の人間が複数のオブジェクトと相互作用する大規模なデータセットHIMOを提案している。HIMOには、3.3Kの4D人間-オブジェクト相互作用シーケンスと4.08Mの3D人間-オブジェクト相互作用フレームが含まれている。また、詳細なテキストの説明と時間的なセグメンテーションも注釈されており、テキスト全体の説明または細かい時間的な制御に基づいた人間-オブジェクト相互作用の合成という2つの新しいタスクを提案している。これらのタスクに対処するために、相互作用モジュールを備えた双方向の条件付き拡散モデルを提案し、滑らかな遷移を得るためのオートリグレッシブな生成パイプラインも設計している。実験結果は、提案手法が未知のオブジェクト形状や時間的な構成に対して一般化できることを示している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問