核心概念
텍스트 레이블 및 2D 이미지 정보와 같은 멀티모달 정보를 활용하면 퓨샷 3D 포인트 클라우드 의미론적 분할 작업의 성능을 크게 향상시킬 수 있다.
要約
멀티모달 정보 활용을 통한 퓨샷 3D 포인트 클라우드 의미론적 분할 성능 향상
본 연구 논문은 적은 수의 라벨링된 데이터만으로 새로운 범주의 객체를 분할하는 퓨샷 3D 포인트 클라우드 의미론적 분할(FS-PCS) 작업에서 멀티모달 정보를 활용하여 성능을 향상시키는 것을 목표로 한다.
저자들은 텍스트 레이블(객체 클래스 이름)과 2D 이미지 정보를 3D 포인트 클라우드 데이터와 함께 활용하는 새로운 멀티모달 FS-PCS 모델인 MM-FSS(MultiModal Few-Shot SegNet)를 제안한다.
MM-FSS 모델의 주요 구성 요소는 다음과 같다.
공유 백본 및 헤드: 3D 포인트 클라우드 입력을 처리하기 위해 공유 백본과 두 개의 헤드(IF 헤드, UF 헤드)를 사용한다. IF 헤드는 2D 이미지 정보를 활용하여 2D 시각적 특징과 정렬된 intermodal 특징을 추출하고, UF 헤드는 3D 포인트 클라우드 정보만을 사용하여 unimodal 특징을 추출한다.
멀티모달 상관관계 융합(MCF) 모듈: intermodal 및 unimodal 특징에서 계산된 상관관계를 효과적으로 융합하여 멀티모달 상관관계를 생성한다.
멀티모달 의미론적 융합(MSF) 모듈: 텍스트 레이블에서 추출된 텍스트 임베딩을 활용하여 멀티모달 상관관계를 더욱 정교하게 조정한다.
테스트 시간 적응형 교차 모달 보정(TACC) 기술: 퓨샷 모델의 학습 편향을 완화하기 위해 테스트 시간 동안 예측을 적응적으로 보정한다.