מושגי ליבה
본 논문에서는 복잡한 3D 장면에서 여러 객체에 대한 3D 분할 마스크와 3D 공간 관계 설명을 포함하는 텍스트 설명을 생성하는 멀티 객체 3D 추론 분할 작업을 제안합니다.
Xueying Jiang, Lewei Lu, Ling Shao, Shijian Lu. (2024). Multimodal 3D Reasoning Segmentation with Complex Scenes. arXiv preprint arXiv:2411.13927v1.
본 연구는 복잡한 3D 장면에서 여러 객체에 대한 3D 분할 마스크와 3D 공간 관계 설명을 포함하는 텍스트 설명을 생성하는 멀티 객체 3D 추론 분할 작업을 제안합니다. 이를 위해 기존 3D 추론 분할 데이터셋의 한계점을 극복하고 멀티 객체 및 공간 관계 정보를 포함하는 대규모 데이터셋 ReasonSeg3D를 구축하고, 이를 기반으로 멀티 객체 3D 추론 분할을 수행하는 새로운 모델 MORE3D를 제시합니다.