核心概念
DriveGPT4는 대형 언어 모델을 활용하여 비디오 입력과 텍스트 질문에 대한 해석과 차량 제어 신호를 동시에 생성하는 새로운 자율 주행 시스템이다.
摘要
이 논문은 DriveGPT4라는 새로운 해석 가능한 엔드-투-엔드 자율 주행 시스템을 소개한다. DriveGPT4는 멀티모달 대형 언어 모델을 활용하여 비디오 입력과 텍스트 질문에 대한 해석을 제공하고 동시에 차량 제어 신호를 예측한다.
주요 내용은 다음과 같다:
- DriveGPT4는 비디오 프레임과 텍스트 질문을 입력으로 받아 차량 행동 설명, 행동 정당화, 추가 질문에 대한 자연어 응답을 생성하고 동시에 다음 시간 단계의 차량 속도와 조향각을 예측한다.
- DriveGPT4 학습을 위해 BDD-X 데이터셋과 ChatGPT로 생성한 추가 질문-답변 쌍을 활용한다. 이를 통해 DriveGPT4의 해석 능력과 유연성이 향상된다.
- 실험 결과, DriveGPT4는 기존 최신 모델들을 능가하는 성능을 보인다. 또한 제안된 모델은 다른 데이터셋과 비디오 게임 환경에서도 우수한 제너럴라이제이션 능력을 보인다.
統計資料
차량 속도: 2.15m/s
비디오 길이: 2.10초