Khái niệm cốt lõi
本文提出了一种基于扩散的方法InterGen,能够通过文本指引生成高质量和多样化的双人互动运动。我们设计了一种新的运动表示方式,并引入了两个协作的变换器式去噪网络,以及一些新的正则化损失函数,有效地生成了更逼真的双人互动运动。
Tóm tắt
本文提出了一种基于扩散的方法InterGen,用于生成高质量和多样化的双人互动运动。首先,我们贡献了一个新的人体互动数据集InterHuman,包含了丰富的文本描述和准确的骨骼运动数据。
在算法方面,我们提出了一种新的运动表示方式,能够更好地保留两人之间的空间关系。我们还引入了两个协作的变换器式去噪网络,通过权重共享和互注意力机制来平衡两人运动能力。此外,我们提出了两个新的正则化损失函数,分别编码了两人之间的空间干涉和相对朝向信息,并设计了一个损失衰减策略来进一步改善生成结果。
通过大量实验,我们证明了InterGen能够生成更逼真和多样化的双人互动运动,并展示了它在一些下游应用中的有效性,如轨迹控制、互动运动插值以及人与人之间的运动生成。
Thống kê
我们的数据集包含约107M帧的双人互动运动,持续时间为6.56小时。
数据集中包含23,337个独特的文本描述,由5656个不同的单词组成。