이 논문은 자율주행 시스템의 두 가지 주요 과제를 해결하기 위해 M2DA(Multi-Modal fusion Transformer incorporating Driver Attention)를 제안한다.
다중 센서 데이터 융합: LVAFusion 모듈을 제안하여 카메라 이미지와 라이다 포인트 클라우드 데이터를 효과적으로 융합한다. 이를 통해 서로 다른 센서 모달리티 간의 정보 정렬을 향상시킨다.
인간적인 장면 이해: 운전자의 주의력 예측 모델을 도입하여 복잡한 교통 상황에서 위험한 객체를 빠르게 식별하고 예측할 수 있는 능력을 갖춘다. 이를 통해 숙련된 운전자와 유사한 장면 이해 능력을 구현한다.
실험 결과, M2DA는 CARLA 시뮬레이터의 Town05 Long 벤치마크와 Longest6 벤치마크에서 최신 기술 수준을 능가하는 성능을 보여주었다. 특히 적은 양의 학습 데이터로도 우수한 성능을 달성할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문