본 논문은 언어, 이미지, 오디오 등 다양한 모달리티의 대형 사전 학습 모델을 효율적으로 3D 이해 작업에 활용하는 방법을 제안한다.
Agent3D-Zero는 3D 데이터 없이도 다양한 관점의 이미지를 활용하여 3D 장면을 이해할 수 있는 혁신적인 에이전트 프레임워크이다.