Основні поняття
다중 모달리티 센서 정보를 효율적으로 통합하여 운동 예측 성능을 크게 향상시킬 수 있다.
Анотація
이 논문은 다중 모달리티 센서 신호를 운동 예측에 효율적으로 통합하는 방법을 제안한다.
장면을 다양한 장면 요소로 분해하고, 사전 학습된 이미지 인코더와 3D 포인트 클라우드 네트워크를 활용하여 각 요소의 풍부한 의미론적 및 기하학적 정보를 인코딩한다.
이렇게 얻은 다중 모달리티 장면 토큰을 기존의 상징적 표현과 결합하여 운동 예측 모델에 입력한다.
실험 결과, 제안 방법이 기존 모델 대비 유의미한 성능 향상을 보여준다. 특히 지각 오류나 도로 그래프 불완전성이 있는 어려운 시나리오에서도 강건한 성능을 보인다.
Статистика
제안 모델은 기존 Wayformer 모델 대비 10.3% 상대적 minADE 향상을 보였다.
어려운 시나리오에서 제안 모델은 mAP와 soft-mAP에서 각각 13.1%와 12.4%의 상대적 향상을 보였다.
지각 오류가 50%인 경우에도 제안 모델은 기존 모델과 유사한 성능을 보였다.
도로 그래프 정보가 30% 누락된 경우에도 제안 모델은 기존 모델과 유사한 성능을 보였다.
Цитати
"다중 모달리티 센서 정보를 효율적으로 통합하여 운동 예측 성능을 크게 향상시킬 수 있다."
"제안 모델은 지각 오류나 도로 그래프 불완전성이 있는 어려운 시나리오에서도 강건한 성능을 보인다."