toplogo
サインイン

一般語彙オブジェクト6Dポーズ推定


核心概念
テキストプロンプトを使ってオブジェクトの6Dポーズを推定する新しい手法を提案する。既存のアプローチとは異なり、(i) オブジェクトはテキストプロンプトのみで指定され、(ii) 推定時にオブジェクトモデルは必要なく、(iii) オブジェクトは異なるシーンから撮影された2つのRGBD画像に写っている。
要約
本論文では、一般語彙を使ってオブジェクトの6Dポーズを推定する新しい手法を提案する。既存のアプローチとは異なり、ユーザーが入力したテキストプロンプトのみでオブジェクトを特定し、オブジェクトモデルや動画は必要ない。また、2つの異なるシーンから撮影されたRGBD画像を入力とする。 提案手法では、Vision-Language Modelを活用してオブジェクトを分割し、その相対的な6Dポーズを推定する。テキストプロンプトの情報をローカルな画像特徴と融合することで、新しい概念にも一般化できる特徴空間を構築する。 提案手法を、REAL275とToyota-Lightの2つのデータセットを組み合わせた新しいベンチマークで評価した。結果は、既存の手法よりも優れた6Dポーズ推定性能を示している。
統計
2つの異なるシーンから撮影されたRGBD画像のペアを入力とする 34種類のオブジェクトインスタンスが4,000枚の画像ペアに含まれる
引用
なし

抽出されたキーインサイト

by Jaime Corset... 場所 arxiv.org 04-08-2024

https://arxiv.org/pdf/2312.00690.pdf
Open-vocabulary object 6D pose estimation

深掘り質問

一般語彙を使ったポーズ推定の応用範囲はどのように広がるか?

一般語彙を使用したポーズ推定は、従来のオブジェクトモデルに依存する手法と比較して、より柔軟で幅広い応用範囲を持つ可能性があります。従来の手法では、特定のオブジェクトモデルやビデオシーケンスが必要であったのに対し、一般語彙を使用することで新しいオブジェクトに対応できるようになります。これにより、未知のオブジェクトやシーンに対してもポーズ推定が可能となります。さらに、ユーザーが技術的な知識を持たなくても、テキスト記述を通じてオブジェクトを指定できるため、利便性が向上します。一般語彙を使用することで、さまざまな環境やオブジェクトに対応できる汎用性の高いポーズ推定システムが実現される可能性があります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star