本研究では、3Dオブジェクトの部品セグメンテーションに関する新しいタスクである「推論ベースの部品セグメンテーション」を提案している。このタスクでは、複雑で暗示的なテキストクエリに基づいて部品セグメンテーションマスクを出力することが求められる。
提案手法のPARIS3Dは、大規模多モーダルモデルを活用し、3Dポイントクラウドを複数の2D画像に変換して入力とし、テキストクエリに基づいて部品セグメンテーションマスクを生成する。さらに、生成したマスクに対する説明も提供することができる。
また、このタスクを評価するためのデータセットRPSeg3Dを構築した。RPSeg3Dには2624の3Dオブジェクトと60,000以上の命令が含まれている。
実験の結果、PARIS3Dは既存の手法と比較して優れた性能を示し、3Dオブジェクトの部品に関する概念の理解、推論、説明の能力を備えていることが確認された。さらに、実世界の3Dポイントクラウドデータにも適用可能であることが示された。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Amrin Kareem... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03836.pdfDeeper Inquiries