핵심 개념
기하학적 구조를 활용하여 2D 비전-언어 모델 표현을 3D 포인트에 효과적으로 전달하는 집계 기법을 제안한다.
초록
이 논문은 제로 샷 3D 포인트 클라우드 이해를 위한 새로운 기하학적 기반 집계 기법을 소개한다. 기존 방법들은 2D 픽셀의 비전-언어 모델 표현을 직접 3D 포인트에 매핑하지만, 포인트 클라우드의 내재적이고 표현 가능한 기하학적 구조를 간과한다. 저자들은 기하학적으로 유사하거나 근접한 영역이 의미 정보를 공유할 가능성이 높다는 점에 착안하여, 3D 기하학적 구조를 활용하여 전달된 비전-언어 모델 표현의 품질을 향상시키는 훈련 없는 집계 기법을 제안한다.
제안 기법은 국소적-전역적 집계 기반의 반복적 프로세스를 통해 작동한다. 먼저 포인트 클라우드를 기하학적 및 의미적 포인트 수준 추론에 기반하여 슈퍼포인트로 클러스터링한다. 각 슈퍼포인트에 대해 국소적 집계를 수행하여 비전-언어 모델 표현을 정제한다. 이후 슈퍼포인트 간 전역적 집계를 통해 유사한 기하학적 구조를 공유하는 영역의 표현을 일관성 있게 만든다. 마지막으로 슈퍼포인트에서 개별 포인트로 정보를 전파하고, 비전-언어 모델 표현 앵커를 활용하여 최종 포인트 수준 표현을 생성한다.
제안 기법은 분류, 부분 분할, 의미 분할 등 다양한 하위 작업에서 새로운 최신 성능을 달성한다. 실험 결과, 합성/실제 세계, 실내/실외 시나리오를 포함하는 다양한 데이터셋에서 제안 기법의 우수성이 입증되었다.
통계
포인트 클라우드는 N개의 3D 포인트 pi로 구성된다.
각 포인트 pi에는 b차원의 비전-언어 모델 표현 fi가 연관되어 있다.
각 포인트 pi에는 d차원의 기하학적 표현 gi가 연관되어 있다.