Główne pojęcia
다중 작업 학습 네트워크는 단일 작업 모델에 비해 성능과 계산 효율성을 향상시킬 수 있어 온라인 배포를 용이하게 한다. 그러나 현재 포인트 클라우드 인지 분야의 다중 작업 아키텍처는 각 작업별 포인트 클라우드 표현을 결합하여 사용하므로 네트워크가 크고 느리다. 본 연구에서는 포인트 기반 표현만을 사용하는 효율적인 다중 작업 학습 아키텍처 PAttFormer를 제안한다.
Streszczenie
본 논문은 효율적인 LiDAR 기반 다중 작업 인지 모델 PAttFormer를 제안한다. 기존 다중 작업 모델들은 각 작업별 포인트 클라우드 표현을 사용하여 네트워크가 크고 느리지만, PAttFormer는 포인트 기반 표현만을 사용하여 3배 더 작고 1.4배 더 빠르면서도 경쟁력 있는 성능을 달성한다.
PAttFormer의 핵심 구성은 다음과 같다:
- 이웃 주의 집중 메커니즘을 사용하는 변환기 기반 특징 인코더
- 3D 변형 주의 집중 기반의 경량 탐지 디코더 헤드
- 포인트 기반 표현을 사용하여 작업 간 하드 파라미터 공유 가능
PAttFormer는 nuScenes와 KITTI 벤치마크에서 의미 분할과 3D 객체 탐지 모두에서 우수한 성능을 보였다. 특히 다중 작업 학습을 통해 nuScenes 벤치마크에서 의미 분할 mIoU 1.7% 및 객체 탐지 mAP 1.7% 향상을 달성했다. 또한 데이터 효율 실험에서도 단일 작업 대비 다중 작업 학습의 성능 향상이 일관되게 관찰되었다.
Statystyki
제안된 PAttFormer 모델은 기존 다중 작업 모델 대비 3배 더 작고 1.4배 더 빠르다.
nuScenes 벤치마크에서 다중 작업 학습을 통해 의미 분할 mIoU 1.7% 및 객체 탐지 mAP 1.7% 향상을 달성했다.
데이터 효율 실험에서 다중 작업 학습이 단일 작업 대비 일관되게 성능 향상을 보였다.
Cytaty
"다중 작업 학습 네트워크는 성능과 계산 효율성을 향상시킬 수 있어 온라인 배포를 용이하게 한다."
"현재 포인트 클라우드 인지 분야의 다중 작업 아키텍처는 각 작업별 포인트 클라우드 표현을 결합하여 사용하므로 네트워크가 크고 느리다."
"본 연구에서는 포인트 기반 표현만을 사용하는 효율적인 다중 작업 학습 아키텍처 PAttFormer를 제안한다."