Kernkonzepte
본 논문에서는 대규모 멀티모달 상황 인식 데이터셋인 MSQA를 제시하고, 이를 활용하여 3D 장면에서의 상황 인식 및 행동 예측 능력을 평가하는 벤치마크를 소개합니다.
Zusammenfassung
MSQA: 3D 장면에서의 멀티모달 상황 인식
본 논문에서는 3D 장면에서의 상황 인식을 위한 대규모 멀티모달 데이터셋인 MSQA (Multi-modal Situated Question Answering)를 소개합니다. MSQA는 텍스트, 이미지, 포인트 클라우드를 포함한 다양한 형태의 데이터를 제공하며, 이를 통해 3D 환경에서의 상황 인식 능력을 평가할 수 있는 벤치마크를 제공합니다.
본 연구의 목표는 3D 장면에서의 상황 인식 능력을 평가할 수 있는 대규모 데이터셋 및 벤치마크를 구축하는 것입니다. 기존의 데이터셋은 데이터의 다양성, 규모, 작업 범위 측면에서 제한적이었기 때문에, 본 연구에서는 이러한 한계를 극복하고자 MSQA를 제안합니다.
MSQA는 3D 장면 그래프와 Vision-Language Models (VLMs)을 활용하여 자동으로 데이터를 수집하는 파이프라인을 통해 구축되었습니다. 먼저, ScanNet, 3RScan, ARKitScenes과 같은 실제 3D 장면에서 다양한 상황 (위치 및 시점)을 생성합니다. 그런 다음, 생성된 상황에 따라 3D 장면 그래프를 조정하여 상황별 장면 그래프를 생성하고, 이를 사용하여 Large Language Models (LLMs)을 위한 프롬프트를 설계하여 상황에 맞는 질문-답변 쌍을 생성합니다. 또한, MSQA는 서로 다른 상황 간 이동에 필요한 탐색 작업을 목표로 하는 질문-답변 쌍을 포함하여 3D 장면에서 구현된 작업의 전체 범위를 포괄하도록 확장되었습니다.