Core Concepts
HENet은 고해상도 이미지, 장기 시간 입력, 대형 이미지 인코더를 효율적으로 활용하여 다중 과제 3D 인지 성능을 향상시킨다. 또한 과제 간 충돌을 해결하기 위해 적절한 BEV 특징 크기 선택과 독립적인 BEV 인코더를 사용한다.
Abstract
HENet은 다중 카메라 기반 3D 인지를 위한 종합적인 프레임워크이다. 주요 구성은 다음과 같다:
하이브리드 이미지 인코딩 네트워크:
단기 프레임에는 고해상도 입력, 대형 이미지 백본, 복잡한 2D-to-BEV 네트워크를 사용하여 고정밀 BEV 특징을 추출한다.
장기 프레임에는 저해상도 입력, 소형 이미지 백본, 단순한 2D-to-BEV 네트워크를 사용하여 효율적으로 BEV 특징을 생성한다.
시간 특징 통합 모듈:
인접 프레임 융합 모듈(AFFM)을 이용한 시간 역방향 및 순방향 프로세스로 다중 프레임 BEV 특징을 동적으로 정렬 및 융합한다.
독립적인 BEV 특징 인코딩:
3D 객체 탐지와 BEV 의미 분할 과제가 선호하는 BEV 격자 크기가 다르다는 관찰에 기반하여, 각 과제에 적합한 BEV 특징 크기를 선택하고 독립적인 BEV 인코더를 사용한다.
실험 결과, HENet은 nuScenes 벤치마크에서 3D 객체 탐지와 BEV 의미 분할 과제에서 최신 수준의 성능을 달성했다. 또한 HENet은 기존 방법 대비 훨씬 효율적인 학습 비용을 보였다.
Stats
3D 객체 탐지 과제에서 HENet은 NDS 59.9, mAP 50.2를 달성했다.
BEV 의미 분할 과제에서 HENet은 mIoU 58.0을 달성했다.
Quotes
"HENet은 고해상도 이미지, 장기 시간 입력, 대형 이미지 인코더를 효율적으로 활용하여 다중 과제 3D 인지 성능을 향상시킨다."
"HENet은 과제 간 충돌을 해결하기 위해 적절한 BEV 특징 크기 선택과 독립적인 BEV 인코더를 사용한다."