Core Concepts
데이터 규모 확대만으로도 3D 인지 능력을 갖출 수 있다.
Abstract
이 논문은 멀티모달 대규모 언어 모델(MLLM)의 3차원 인지 능력을 확장하는 방법을 제안한다. 먼저 2D와 3D 데이터를 통합한 대규모 사전 학습 데이터셋 LV3D를 구축했다. 이를 바탕으로 Cube-LLM이라는 새로운 MLLM을 학습했다. Cube-LLM은 3D 이해 능력을 보여주며, 다음과 같은 특징을 가진다:
2D 정보를 활용하여 3D 이해를 단계적으로 향상시킬 수 있다(시각적 체인-오브-쓰ought 프롬프팅).
다양한 입출력 형식에 적응할 수 있다.
전문가 모델의 예측을 프롬프트로 활용하여 성능을 높일 수 있다.
실험 결과, Cube-LLM은 기존 모델 대비 3D 그라운딩 성능에서 큰 향상을 보였다. 또한 복잡한 3D 추론 작업과 표준 MLLM 벤치마크에서도 경쟁력 있는 성과를 달성했다.
Stats
"Cube-LLM은 Talk2Car 데이터셋에서 기존 모델 대비 3D BEV AP 21.3점, 3D AP 18.7점 향상을 보였다."
"Cube-LLM은 DriveLM 데이터셋에서 3D BEV AP 32.8점 향상을 보였다."
Quotes
"데이터 규모 확대만으로도 3D 인지 능력을 갖출 수 있다."
"Cube-LLM은 2D 정보를 활용하여 3D 이해를 단계적으로 향상시킬 수 있다."
"Cube-LLM은 다양한 입출력 형식에 적응할 수 있다."