本論文では、見えない物体を持つ手の形状と物体の形状を、複数の RGB 画像から再構築する手法を提案している。
単一視点の手法は学習された形状の事前知識を活用できるが、遮蔽の問題に弱い。一方、密な多視点の手法は高精度だが、新しい物体に適応するためには追加のデータ収集が必要となる。
提案手法は、複数の視点を活用して遮蔽の問題を軽減しつつ、データ要件を低く抑えることができる。具体的には、各視点から独立に手と物体の形状を予測し、それらを統合して最終的な再構築を行う。
実験では、提案手法を完全に合成データで訓練し、実世界の未知の物体データセットで評価している。結果として、複数の視点を活用することで再構築精度が向上することが示された。ただし、背景に物体が存在する場合、視点数を増やすと逆に精度が低下する傾向がある。これは、手と物体の分割が必要であることを示唆している。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問