이 논문은 제로 샷 3D 포인트 클라우드 이해를 위한 새로운 기하학적 기반 집계 기법을 소개한다. 기존 방법들은 2D 픽셀의 비전-언어 모델 표현을 직접 3D 포인트에 매핑하지만, 포인트 클라우드의 내재적이고 표현 가능한 기하학적 구조를 간과한다. 저자들은 기하학적으로 유사하거나 근접한 영역이 의미 정보를 공유할 가능성이 높다는 점에 착안하여, 3D 기하학적 구조를 활용하여 전달된 비전-언어 모델 표현의 품질을 향상시키는 훈련 없는 집계 기법을 제안한다.
제안 기법은 국소적-전역적 집계 기반의 반복적 프로세스를 통해 작동한다. 먼저 포인트 클라우드를 기하학적 및 의미적 포인트 수준 추론에 기반하여 슈퍼포인트로 클러스터링한다. 각 슈퍼포인트에 대해 국소적 집계를 수행하여 비전-언어 모델 표현을 정제한다. 이후 슈퍼포인트 간 전역적 집계를 통해 유사한 기하학적 구조를 공유하는 영역의 표현을 일관성 있게 만든다. 마지막으로 슈퍼포인트에서 개별 포인트로 정보를 전파하고, 비전-언어 모델 표현 앵커를 활용하여 최종 포인트 수준 표현을 생성한다.
제안 기법은 분류, 부분 분할, 의미 분할 등 다양한 하위 작업에서 새로운 최신 성능을 달성한다. 실험 결과, 합성/실제 세계, 실내/실외 시나리오를 포함하는 다양한 데이터셋에서 제안 기법의 우수성이 입증되었다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Guofeng Mei,... um arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.02244.pdfTiefere Fragen