핵심 개념
본 연구는 2D 데이터만을 사용하여 장면 표현과 오픈 어휘 의미를 동시에 학습할 수 있는 일반화 가능한 신경 의미 필드 모델을 제안한다. 이를 통해 기존 방법들의 한계를 극복하고 2D와 3D 오픈 어휘 의미 분할 분야에서 최첨단 성능을 달성한다.
초록
본 논문은 일반화 가능한 오픈 어휘 신경 의미 필드(GOV-NeSF)라는 새로운 접근법을 제안한다. GOV-NeSF는 2D 데이터만을 사용하여 3D 장면 표현과 오픈 어휘 의미를 동시에 학습할 수 있다.
주요 내용은 다음과 같다:
- 3D 비용 볼륨 구축과 3D U-Net을 통해 기하학적 특징을 추출한다.
- 다중 뷰 특징 융합 모듈(Multi-view Joint Fusion)을 제안하여 다중 뷰 색상 및 오픈 어휘 특징을 효과적으로 결합한다.
- 교차 뷰 주의 메커니즘(Cross-View Attention)을 도입하여 다중 뷰 특징을 효과적으로 통합한다.
- 실험 결과, GOV-NeSF는 2D 및 3D 오픈 어휘 의미 분할 분야에서 최첨단 성능을 달성하며, 장면 및 데이터셋 간 일반화 능력이 뛰어나다.
통계
주어진 3D 장면의 다양한 각도에서 촬영한 이미지들을 입력으로 사용한다.
이미지에서 추출한 2D 특징과 오픈 어휘 특징을 3D 비용 볼륨으로 통합한다.
3D 볼륨 렌더링 과정에서 다중 뷰 특징을 효과적으로 융합하여 색상과 오픈 어휘 의미를 예측한다.
인용구
"본 연구는 일반화 가능한 오픈 어휘 신경 의미 필드(GOV-NeSF)라는 새로운 접근법을 제안한다."
"GOV-NeSF는 2D 데이터만을 사용하여 3D 장면 표현과 오픈 어휘 의미를 동시에 학습할 수 있다."
"실험 결과, GOV-NeSF는 2D 및 3D 오픈 어휘 의미 분할 분야에서 최첨단 성능을 달성하며, 장면 및 데이터셋 간 일반화 능력이 뛰어나다."