이 논문은 다중 카메라 3D 객체 탐지(MC3D-Det) 모델의 성능을 향상시키기 위한 방법을 제안한다. MC3D-Det 모델은 개별 카메라 관점에서 이미지 특징을 추출하고(단일 카메라 인지), 이를 융합하여 최종 예측을 수행한다(주변 환경 정제).
기존 MC3D-Det 모델은 특정 카메라 구성과 환경에 과적합되는 문제가 있었다. 이를 해결하기 위해 다중 데이터셋 학습을 시도했지만, 단일 카메라 인지 능력에 과도하게 의존하게 되어 주변 환경 정제 능력이 저하되는 문제가 발생했다.
이 논문에서는 약한-강한 유도 프레임워크를 제안한다. 먼저 약한 전문가 모델을 학습하여 다양한 카메라 구성과 환경에 대한 잘못된 단일 카메라 특징을 생성한다. 이를 통해 주변 환경 정제 모듈이 이러한 잘못된 특징을 보완하고 정제하는 능력을 향상시킨다. 또한 2D 기반 모델의 일반화된 지식과 세부 속성 정보를 복합적으로 증류하여 단일 카메라 인지 능력도 향상시킨다.
실험 결과, 제안 방법은 기존 MC3D-Det 모델 대비 유의미한 성능 향상을 보였으며, 가상-실제 데이터셋 통합 학습에서도 우수한 성능을 달성했다. 또한 다양한 MC3D-Det 알고리즘에 적용 가능한 범용성을 보였다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Hao Lu,Jiaqi... kl. arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06700.pdfDybere Forespørgsler