本論文は、オープンボキャブラリー3Dインスタンスセグメンテーションの問題に取り組む。従来手法は2Dマスクの局所的な特徴に基づいてマージを行うため、グローバルな整合性が低い。
提案手法では、まず2Dマスクを抽出し、それらの間の視覚コンセンサスを評価してマスクグラフを構築する。次に、視覚コンセンサスの高いマスクペアを優先的にマージし、反復的にクラスタリングを行う。これにより、グローバルに整合性の高い3Dインスタンスを生成できる。
また、2Dマスクと3Dインスタンスの対応関係を利用して、オープンボキャブラリーの特徴を統合することで、セマンティック理解も可能となる。
提案手法は、ScanNet++、MatterPort3D、ScanNet200の各ベンチマークにおいて、従来手法を大きく上回る性能を示した。特に、小物体の精密なセグメンテーションに優れている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mi Yan,Jiazh... at arxiv.org 04-11-2024
https://arxiv.org/pdf/2401.07745.pdfDeeper Inquiries