핵심 개념
다중 모달 토큰을 활용하여 대형 언어 모델을 통해 자율 주행 모방 학습을 향상시키는 방법을 제안한다.
초록
이 연구는 대형 언어 모델(LLM)을 활용하여 자율 주행 모방 학습을 향상시키는 방법을 제안한다. 기존의 자율 주행 시스템은 주로 파이프라인 기반 접근법을 사용하여 각 모듈을 별도로 학습했지만, 이는 장기적인 시나리오를 다루는 데 어려움이 있다. 따라서 연구진은 엔드-투-엔드 학습 접근법을 통해 인간과 유사한 의사결정을 학습하고자 한다.
제안하는 방법은 다음과 같다:
- 비주얼 및 LiDAR 센서 입력을 학습 가능한 다중 모달 토큰으로 통합하여 분리된 사전 학습 인지 모델의 설명 편향을 내재적으로 완화한다.
- 단순히 waypoint를 예측하는 것이 아니라, 운전 설명과 운전 동작을 포함하는 운전 언어를 생성하도록 LLM을 활용한다. 이를 통해 운전 논리를 더 포괄적으로 학습할 수 있다.
- 운전 모델의 출력과 안전 제어기 간의 충돌이 있는 경우 LLM에 재질의하는 메커니즘을 도입하여 불확실한 상황에서 모델이 "두 번 생각"하도록 한다.
- 보상 기반 강화 학습을 통해 LLM의 운전 예측 정확도를 향상시킨다.
실험 결과, 제안 방법은 CARLA 시뮬레이터에서 기존 최첨단 모델과 유사한 수준의 성능을 달성했다. 이는 LLM을 활용하여 운전 논리를 더 포괄적으로 학습할 수 있음을 보여준다.
통계
현재 주행 속도, 스로틀 <20%>
반대편 차량 2대, #obj1 거리 <5m>, #obj2 거리 <7m>
앞쪽 장애물 거리 <10m>
신호등 상태 <녹색>, 보행자 <0>
인용구
"LLM을 직접 운전하게 하는 것이 아니라, 운전 모델의 실수를 수정하도록 하는 하이브리드 설정을 탐구한다."
"언어 프롬프트를 통해 운전 논리를 더 포괄적으로 학습할 수 있다."
"재질의 메커니즘을 통해 모델이 불확실한 상황에서 '두 번 생각'하도록 한다."