핵심 개념
본 연구는 3D 오픈 어휘 범용 분할 문제를 해결하기 위해 학습 가능한 LiDAR 특징과 고정된 비전 CLIP 특징의 융합, 객체 수준 증류 손실 및 voxel 수준 증류 손실을 제안한다.
초록
이 논문은 3D 오픈 어휘 범용 분할 문제를 다룹니다. 기존의 3D 범용 분할 모델은 알려진 클래스에 대해서만 예측을 할 수 있었지만, 본 연구에서는 알려지지 않은 클래스에 대해서도 정확한 예측을 할 수 있는 모델을 제안합니다.
주요 내용은 다음과 같습니다:
- 학습 가능한 LiDAR 특징과 고정된 비전 CLIP 특징을 융합하여 전체 3D 센싱 영역에서 풍부한 특징을 학습할 수 있습니다.
- 객체 수준 증류 손실 함수를 통해 CLIP 모델의 특징을 직접 증류하여 알려지지 않은 클래스에 대한 예측 성능을 향상시킵니다.
- voxel 수준 증류 손실 함수를 통해 마스크 예측 성능, 특히 알려지지 않은 stuff 클래스에 대한 성능을 크게 향상시킵니다.
실험 결과, 제안 모델은 강력한 베이스라인 모델 대비 큰 성능 향상을 보였습니다. 특히 알려지지 않은 stuff 클래스에 대한 성능이 크게 향상되었습니다.
통계
본 연구에서 제안한 모델은 알려지지 않은 클래스에 대해서도 정확한 범용 분할 결과를 생성할 수 있습니다.
제안 모델은 nuScenes 데이터셋에서 PQ 62.0, PQTh^N 49.6, PQSt^N 35.2를 달성하여 강력한 베이스라인 대비 큰 성능 향상을 보였습니다.
SemanticKITTI 데이터셋에서도 제안 모델은 PQ 42.2, PQTh^N 13.1, PQSt^N 17.8로 우수한 성능을 보였습니다.
인용구
"본 연구는 3D 오픈 어휘 범용 분할 문제를 다루는 첫 번째 접근 방식입니다."
"제안 모델은 학습 가능한 LiDAR 특징과 고정된 비전 CLIP 특징의 융합을 통해 전체 3D 센싱 영역에서 풍부한 특징을 학습할 수 있습니다."
"객체 수준 증류 손실과 voxel 수준 증류 손실 함수를 통해 알려지지 않은 클래스에 대한 예측 성능을 크게 향상시킬 수 있습니다."