核心概念
우리는 개방형 3D 장면 이해를 위한 경량화되고 확장 가능한 지역 포인트-언어 대조 학습 프레임워크인 RegionPLC를 제안한다. 이를 통해 3D 데이터에서 개방형 객체와 범주를 정확하게 인식할 수 있다.
摘要
이 논문은 개방형 3D 장면 이해를 위한 RegionPLC 프레임워크를 제안한다. 주요 내용은 다음과 같다:
다양한 2D 비전-언어 모델을 활용하여 고품질의 밀집 지역 수준 언어 설명을 생성하고 이를 3D 데이터에 매핑하는 3D 인식 SFusion 전략을 소개한다.
지역 인식 포인트 판별 대조 학습 목적함수를 고안하여 밀집 지역 언어 감독으로부터 강건하고 효과적인 3D 학습을 가능하게 한다.
ScanNet, ScanNet200, nuScenes 데이터셋에서 실험을 수행하여 이전 개방형 3D 장면 이해 접근법보다 평균 17.2% 및 9.1% 더 높은 성능을 달성한다. 또한 더 낮은 리소스 요구사항을 보인다.
언어 모델과 통합하여 추가 태스크 특정 학습 없이도 개방형 접지 3D 추론을 가능하게 한다.
統計資料
3D 장면에서 개방형 객체와 범주를 정확하게 인식할 수 있는 능력은 실제 응용 프로그램에 매우 중요하다.
3D 데이터에 대한 밀집 의미 주석을 수집하기 어려워 이 과제가 큰 도전 과제이다.
2D 비전-언어 모델의 뛰어난 개방형 이미지 이해 능력이 3D 모델 학습에 활용될 수 있다.
引述
"개방형 3D 장면 이해는 3D 데이터에서 개방형 객체와 범주를 정확하게 인식할 수 있는 능력을 갖추는 것을 목표로 한다."
"우리는 경량화되고 확장 가능한 지역 포인트-언어 대조 학습 프레임워크인 RegionPLC를 제안한다."