Core Concepts
3DBench는 객체에서 장면 수준까지 다양한 공간 이해와 추론 능력을 평가하는 포괄적인 벤치마크를 제공하며, 이를 위해 자동으로 구축된 대규모 지침 기반 데이터셋을 소개한다.
Abstract
3DBench는 기존 벤치마크의 한계를 극복하고자 10가지 다중 모달 작업을 포함하는 확장 가능한 벤치마크를 제안한다. 이 벤치마크는 객체 수준에서 장면 수준까지 다양한 공간 이해와 추론 능력을 평가한다. 또한 자동으로 구축된 대규모 지침 기반 데이터셋을 제공하여, 기존 데이터셋의 한계를 극복하고자 한다.
데이터셋 구축 파이프라인은 다음과 같다. 첫째, Procthor 시뮬레이션 프레임워크에서 깊이 맵과 객체/장면 메타데이터를 추출한다. 둘째, 이를 활용하여 다양한 3D 객체와 장면을 재구성하고, GPT를 통해 텍스트 작업을 위한 지침 데이터를 생성한다. 이를 통해 10가지 세부 작업을 포함하는 231,000개 이상의 지침 데이터를 구축하였다.
실험 결과, 3DBench를 통해 기존 3D 대규모 언어 모델의 한계를 확인하고, 데이터셋 규모 및 학습 프로토콜 변화에 따른 성능 변화를 관찰할 수 있었다. 이를 통해 향후 연구 방향에 대한 통찰을 제공한다.
Stats
30,000개의 실내 장면 포인트 클라우드와 34,000개의 일상 물체 포인트 클라우드로 구성된 데이터셋
총 231,000개 이상의 지침 데이터 샘플 포함
10가지 다중 모달 작업을 위한 데이터셋
Quotes
"3DBench는 객체에서 장면 수준까지 다양한 공간 이해와 추론 능력을 평가하는 포괄적인 벤치마크를 제공한다."
"자동으로 구축된 대규모 지침 기반 데이터셋을 통해 기존 데이터셋의 한계를 극복하고자 한다."