Core Concepts
3D Vision-Language learning is advanced through SCENEVERSE, a million-scale dataset, and GPS pre-training framework, achieving state-of-the-art results in 3D visual grounding benchmarks.
Stats
SCENEVERSE는 68,406개의 3D 실내 장면과 2.5백만 개의 장면-언어 쌍으로 구성된 첫 번째 백만 규모의 3D 비전-언어 데이터셋을 소개합니다.
GPS는 3D 비전-언어 학습을 확장하여 3D 시각적 그라운딩 벤치마크에서 최첨단 결과를 달성합니다.
Quotes
"3D vision-language grounding stands as a cornerstone in the development of embodied agents."
"We aim to address the challenges in 3D vision-language by systematically upscaling learning in indoor environments."