Grunnleggende konsepter
言語モデルの暗黙的な姿勢に関する知識を活用することで、物理的な接触を正確に捉えた3Dポーズ推定が可能になる。
Sammendrag
本研究では、3Dポーズ推定の際に物理的な接触を正確に捉えるための手法を提案している。従来の手法では、接触点の人手による注釈が必要であったが、本手法では大規模言語モデル(LMM)の暗黙的な姿勢に関する知識を活用することで、注釈なしでこの問題に取り組むことができる。
具体的には、LMMに画像と指示を与えることで、接触している身体部位のペアのリストを生成する。このリストを損失関数に変換し、初期の3Dポーズ推定結果を最適化することで、物理的な接触を正確に捉えたポーズを得ることができる。
実験の結果、本手法は接触点の正解率(PCC)において、注釈ありの従来手法に迫る性能を示した。また、2人の人物が関わる相互作用や、ヨガのような複雑な姿勢においても、適切な接触を捉えた推定結果が得られることが確認された。
Statistikk
2人の人物が接触している場合、その接触部位のペアを正確に推定できる。
ヨガのような複雑な姿勢においても、自己接触を正確に捉えることができる。
Sitater
"言語は物理的な相互作用を記述するのに広く使われているため、事前学習された大規模言語モデルは姿勢推定の際の有用な事前情報となる可能性がある。"
"本手法は、注釈なしで物理的な接触を正確に捉えた3Dポーズ推定を実現する簡単なゼロショット手法を提案している。"