이 논문은 PVTransformer라는 새로운 점-체적 변환 아키텍처를 제안한다. 기존 3D 객체 탐지기는 PointNet 기반 풀링 연산을 사용하여 점 특징을 체적 특징으로 변환하지만, 이 과정에서 정보 손실이 발생한다. PVTransformer는 이를 해결하기 위해 주목 메커니즘을 사용하여 점 특징을 체적 특징으로 변환한다.
구체적으로, PVTransformer는 각 점을 토큰으로 간주하고 단일 쿼리 벡터를 사용하여 해당 체적 내 모든 점 토큰을 인코딩한다. 이를 통해 풀링 연산보다 더 표현력 있는 점-체적 변환 함수를 학습할 수 있다.
실험 결과, PVTransformer는 기존 3D 객체 탐지기 대비 월등한 성능을 보였다. Waymo Open Dataset에서 76.5 mAPH L2를 달성하며, 이전 최고 모델 대비 1.7 mAPH L2 향상을 보였다. 또한 PVTransformer는 점 아키텍처와 체적 아키텍처를 독립적으로 확장할 수 있어 우수한 확장성을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhaoqi Leng,... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02811.pdfDeeper Inquiries