核心概念
ロボットの姿勢と関節角度を推定するための新しい枠組みを提案する。2Dキーポイントの検出と2Dキーポイントから3Dキーポイントへの変換という2つのサブタスクに分割することで、効率性と性能のバランスを取る。拡散モデルを用いた3Dキーポイントの生成により、2Dキーポイントの検出誤差や自己遮蔽に対するロバスト性を高める。さらに、正規化カメラ座標空間を導入することで、カメラ間の一般化性を向上させる。
要約
本論文は、ロボットの姿勢と関節角度を推定する新しい手法を提案している。従来の手法は、レンダリングを用いたアプローチ(RoboPose)や2Dヒートマップから3Dキーポイントを直接予測するアプローチ(SPDH)があったが、それぞれ効率性と性能のトレードオフの問題や、カメラ間の一般化性の課題があった。
提案手法RoboKeyGenでは、この高次元の推定タスクを2つのサブタスク、すなわち2Dキーポイントの検出と2Dキーポイントから3Dキーポイントへの変換に分割する。2Dキーポイントの検出では、セグメンテーションと位置情報の活用により高精度な2Dキーポイントを得る。3Dキーポイントの生成では、拡散モデルを用いて2Dキーポイントから3Dキーポイントを生成することで、2Dキーポイントの検出誤差や自己遮蔽に対するロバスト性を高める。さらに、正規化カメラ座標空間を導入することで、カメラ間の一般化性を向上させる。
最後に、ジョイント角度の推定と姿勢の推定を行い、ロボットの完全な状態を推定する。
実験の結果、提案手法は既存手法と比べて高い精度と効率性を示し、特にカメラ間の一般化性に優れていることが確認された。
統計
ロボットの姿勢と関節角度を推定する際の平均誤差(ADD)は、RealSense-Franka データセットでは0.028m、AzureKinect-Franka データセットでは0.045mであった。