Core Concepts
3D基礎モデルを活用することで、マニピュレータ搭載カメラから得られた少数の画像から、カメラの姿勢推定とロボットの座標系に整合したシーン表現を同時に構築できる。
Abstract
本論文では、ロボットのマニピュレータに取り付けられたRGBカメラを用いて、効率的にシーン表現を構築する手法「Joint Calibration and Representation (JCR)」を提案している。
JCRの特徴は以下の通り:
3D基礎モデルを活用することで、外部マーカーを必要とせずに、カメラの姿勢とロボットの座標系との変換を推定できる。
少数の画像から、物理的に正しい尺度を持つシーン表現を構築できる。
占有領域、セグメンテーション、色情報などを含む高品質な環境表現を生成できる。
具体的な手順は以下の通り:
3D基礎モデルを用いて、入力画像から相対カメラ姿勢を推定する。
カメラ姿勢とマニピュレータの姿勢の関係を最適化することで、カメラ座標系とロボット座標系の変換を推定する。
推定された変換を用いて、3D点群をロボット座標系に変換し、占有領域、セグメンテーション、色情報などを表現するニューラルネットワークモデルを学習する。
実験の結果、JCRは少数の画像から高精度なキャリブレーションと表現構築を実現できることが示された。特に、従来のSfM手法では困難だった滑らかな表面の表現も、3D基礎モデルを活用することで高密度に構築できることが確認された。
Stats
物体の高さ誤差は10枚の画像で最大3.1%
従来のSfMでは滑らかな表面の表現が困難だが、JCRでは高密度な表現が可能