핵심 개념
다중 시점 이미지를 단일 형식으로 연결하고 손실 함수를 수정하여 InternVL-2.0 모델을 개선하여 자율 주행 시나리오에서 인식 및 의사 결정 기능을 향상시켰으며, 그 결과 PRCV 2024 Drive LM 챌린지에서 1위를 차지했습니다.
초록
PRCV 2024 Drive LM 챌린지 1위 솔루션: VLM 기반 정밀 주행 분석
제목: Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge
저자: Bin Huang, Siyu Wang, Yuanpeng Chen, Yidan Wu, Hui Song, Zifan Ding, Jing Leng, Chengpeng Liang, Peng Xue, Junliang Zhang, Tiankun Zhao
기관: Hozon New Energy Automobile Co., Ltd
본 논문은 자율 주행 시나리오에서 인식 및 의사 결정 작업을 위해 대규모 언어 모델(LLM)의 비디오 이해 능력을 활용하는 것을 목표로 합니다.