核心概念
本文提出了一种统一的模型LEMON,通过挖掘人物和物体之间的相互关系来共同预测3D人物接触、物体可用性和人物-物体空间关系等交互元素,以缓解交互不确定性并预测合理的3D交互元素。
要約
本文提出了一种名为LEMON的统一模型,用于从2D图像中学习3D人物-物体交互关系。LEMON通过以下几个步骤实现这一目标:
交互意图挖掘: LEMON利用多分支注意力机制来建模人物和物体几何之间的相关性,并使用余弦相似度来确保它们在语义空间中的一致性。这有助于捕捉交互意图。
曲率引导的几何关联建模: 在获得交互意图表示的基础上,LEMON集成几何曲率信息来指导人物接触和物体可用性特征的建模,从而捕捉人物和物体之间的几何亲和力。
基于接触的空间关系建模: LEMON将人物接触特征注入到对象空间位置的预测中,利用接触信息来约束空间关系的推断。
此外,作者还收集了3DIR数据集,包含自然场景下的人物-物体交互图像以及相应的3D几何标注,为模型训练和评估提供了测试平台。实验结果表明,LEMON在人物接触、物体可用性和人物-物体空间关系的预测上都优于现有方法,验证了利用交互双方关系的有效性。
統計
人物接触区域占人体24个部位的比例在不同交互动作中存在差异。
不同物体的可用性区域占整个物体几何的比例也存在差异。
人物骨盆关节到物体中心的平均距离在不同交互动作中有所不同。