본 논문에서는 실내 및 실외를 포함한 다양한 도메인에서 단일 모델, 단일 매개변수 세트로 3D 객체 감지를 수행하는 범용 모델인 OneDet3D를 제안합니다.
기존의 3D 객체 감지 모델은 특정 도메인(실내 또는 실외)의 데이터셋에 대해서만 학습 및 테스트가 가능하다는 한계점을 가지고 있었습니다. 이는 3D 객체 감지 모델의 범용성을 저해하는 요소로 작용했습니다. 본 논문에서는 다중 도메인 데이터를 활 leveraged하여 다양한 환경에서 일반화된 3D 객체 감지 모델을 구축하는 것을 목표로 합니다.
OneDet3D는 크게 두 가지 구성 요소로 이루어져 있습니다. 첫째, 특징 추출기로 3D Sparse Convolution을 사용합니다. 3D Sparse Convolution은 포인트 기반 구조에 비해 도메인 차이에 강하고 하이퍼파라미터에 덜 민감하며, 다중 도메인 학습에 적합합니다. 또한, Sparse Convolution은 계산 효율성이 높을 뿐만 아니라 포인트에서만 작동하므로 고정된 크기의 특징 맵에 의존하지 않습니다. 이를 통해 다중 도메인 공동 학습을 위한 도메인 불변 3D 특징을 추출할 수 있습니다. 둘째, 객체를 중심점으로 나타내는 Anchor-Free 방식의 감지 헤드를 사용합니다. 이는 Sparse Convolution에서 얻은 포인트를 직접 객체를 나타내는 중심으로 간주하여 Sparse Feature Map을 Dense Feature Map으로 변환할 필요성을 제거합니다. 또한, Pruning Layer를 사용하지 않고 모든 포인트를 최종 단계까지 유지하여 Box 예측을 수행합니다. 이는 포인트 클라우드의 변형으로 인해 서로 다른 Pruning 전략이 필요한 문제를 방지하는 데 도움이 됩니다. 이러한 완전한 Sparse 구조는 Anchor-Free 감지 헤드와 함께 다중 도메인의 포인트 클라우드를 잘 수용하여 다중 도메인 학습에 적합합니다.
다중 도메인 공동 학습 과정에서 발생하는 데이터 레벨 간섭 문제를 해결하기 위해 Domain-Aware Partitioning 기법을 제안합니다. 이는 데이터 정규화 과정에서 스케일링 및 시프팅 매개변수를 각 도메인 데이터에 대해 분할하여 도메인별 데이터 분포를 유지하도록 합니다. 또한, Global Context 정보를 각 도메인 데이터에 대해 별도로 학습하여 도메인 간 Global Context 간섭을 방지합니다.
OneDet3D는 CLIP에서 추출한 언어 어휘 임베딩을 활용하여 카테고리 레벨 간섭 문제를 해결합니다. 서로 다른 데이터셋은 서로 다른 레이블 공간을 가지고 있기 때문에 주석 불일치 문제가 발생할 수 있습니다. 또한, 추론 시 학습 중에 보지 못했던 레이블 공간을 가진 도메인을 마주할 수도 있습니다. 이러한 카테고리 레벨 차이는 동일한 객체에 대한 정의가 달라짐으로 이어져 학습 중에 충돌 및 간섭 문제를 야기합니다. 이를 해결하기 위해 CLIP에서 "a photo of {name}" 프롬프트를 사용하여 각 데이터셋의 카테고리 이름에 대한 언어 임베딩을 추출합니다. 그런 다음 이러한 언어 임베딩을 완전 연결 계층의 매개변수로 사용하여 최종 분류를 수행하며, 학습 중에는 고정된 상태로 유지됩니다. 각 데이터셋은 자체 언어 임베딩을 사용하므로 이러한 간섭을 효과적으로 완화할 수 있습니다.
OneDet3D는 SUN RGB-D, ScanNet, KITTI, nuScenes 데이터셋을 사용한 실험에서 기존의 단일 데이터셋 학습 및 추론 방식을 사용하는 3D 객체 감지 모델보다 우수한 성능을 보였습니다. 또한, 다중 데이터셋 공동 학습을 통해 도메인, 카테고리, 장면에 걸쳐 뛰어난 일반화 성능을 보여주었습니다.
본 논문에서 제안한 OneDet3D는 다중 도메인 공동 학습을 통해 일반화된 3D 표현을 학습하여 범용 3D 객체 감지 및 3D 기반 모델의 요구 사항을 기본적으로 충족하는 모델입니다. OneDet3D는 3D 객체 감지 분야에서 범용 컴퓨터 비전이라는 새로운 연구 방향을 제시할 것으로 기대됩니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究