이 연구는 3D 장면 이해를 위한 새로운 의미 표현 방법을 제안합니다. 주요 내용은 다음과 같습니다:
3D 가우시안 스플래팅과 다중 해상도 해시 인코딩을 결합하여 효율적인 3D 의미 표현을 구축합니다. 이를 통해 수백만 개의 3D 가우시안을 사용하는 실내 규모 장면에서도 메모리 및 계산 효율성을 달성합니다.
다중 뷰 일관성 훈련 프로세스를 통해 언어 임베딩의 뷰 일관성을 보장합니다. 이를 통해 동일한 3D 객체에 대한 일관된 언어 표현을 얻을 수 있습니다.
CLIP과 DINO 특징 간의 픽셀 정렬 손실 함수를 도입하여 공간 정밀도와 객체 구분 능력을 향상시킵니다.
개방형 어휘 객체 탐지 및 장면 분할 작업에서 기존 최신 방법들을 크게 능가하는 성능을 보여줍니다. 특히 추론 속도가 기존 방법보다 851배 빠릅니다.
이 연구는 실세계 환경에서의 향상된 장면 이해를 위한 새로운 가능성을 열어줍니다. 언어와 3D 표현의 격차를 해소함으로써 증강 현실 및 로봇 시스템과의 자연스러운 상호작용이 가능해질 것으로 기대됩니다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Xingxing Zuo... klokken arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.01970.pdfDypere Spørsmål