核心概念
テキストプロンプトを使ってオブジェクトの6Dポーズを推定する新しい手法を提案する。既存のアプローチとは異なり、(i) オブジェクトはテキストプロンプトのみで指定され、(ii) 推定時にオブジェクトモデルは必要なく、(iii) オブジェクトは異なるシーンから撮影された2つのRGBD画像に写っている。
要約
本論文では、一般語彙を使ってオブジェクトの6Dポーズを推定する新しい手法を提案する。既存のアプローチとは異なり、ユーザーが入力したテキストプロンプトのみでオブジェクトを特定し、オブジェクトモデルや動画は必要ない。また、2つの異なるシーンから撮影されたRGBD画像を入力とする。
提案手法では、Vision-Language Modelを活用してオブジェクトを分割し、その相対的な6Dポーズを推定する。テキストプロンプトの情報をローカルな画像特徴と融合することで、新しい概念にも一般化できる特徴空間を構築する。
提案手法を、REAL275とToyota-Lightの2つのデータセットを組み合わせた新しいベンチマークで評価した。結果は、既存の手法よりも優れた6Dポーズ推定性能を示している。
統計
2つの異なるシーンから撮影されたRGBD画像のペアを入力とする
34種類のオブジェクトインスタンスが4,000枚の画像ペアに含まれる