核心概念
본 연구는 레이블된 데이터셋 없이도 3D 점 구름에서 개방형 3D 장면 그래프를 학습하는 새로운 접근법을 제안한다. 이를 위해 강력한 개방형 2D 비전-언어 기반 모델의 특징을 3D 그래프 신경망에 증류하여, 개방형 객체 클래스와 개방형 관계를 예측할 수 있다.
摘要
본 연구는 개방형 3D 장면 그래프 예측을 위한 새로운 접근법을 제안한다. 기존 방법들은 고정된 객체 클래스와 관계 범주에 의존하는 반면, 본 연구는 레이블된 장면 그래프 데이터 없이도 3D 점 구름에서 개방형 3D 장면 그래프를 학습할 수 있다.
핵심 아이디어는 강력한 개방형 2D 비전-언어 기반 모델의 특징을 3D 그래프 신경망에 증류하는 것이다. 이를 통해 개방형 객체 클래스와 개방형 관계를 예측할 수 있다.
구체적으로 다음과 같은 과정을 거친다:
- 3D 점 구름에서 초기 그래프 구조를 구축한다.
- 2D 이미지에서 객체와 관계에 대한 비전-언어 특징을 추출한다.
- 추출된 2D 특징을 3D 그래프 신경망에 증류하여 정렬시킨다.
- 객체 클래스는 CLIP 인코더를 사용하여 개방형으로 예측하고, 관계는 InstructBLIP의 Qformer와 언어 모델을 사용하여 개방형으로 예측한다.
실험 결과, 본 방법은 고정 어휘 벤치마크에서 기존 감독 학습 방법과 경쟁력 있는 성능을 보였다. 또한 드문 객체 클래스에 대해서도 강건한 성능을 보였다.
統計資料
3D 장면에서 객체 간 관계를 나타내는 것은 중요하지만 어렵다.
기존 방법들은 고정된 객체 클래스와 관계 범주에 의존하지만, 실제 응용에서는 더 넓은 범위의 개념이 필요하다.
개방형 2D 비전-언어 모델은 단일 객체 예측에는 강력하지만 복합적인 관계 예측에는 취약하다.
引述
"현재 3D 장면 그래프 예측 접근법은 고정된 객체 클래스와 관계 범주로 학습된 모델에 의존한다."
"우리의 핵심 아이디어는 비전-언어 모델의 장점과 대규모 언어 모델의 복합적 개념 이해 능력을 결합하는 것이다."