Core Concepts
자율주행 코너 케이스에 대한 대규모 비전-언어 모델의 성능을 자동으로 평가하고 분석하는 새로운 벤치마크 CODA-LM을 제안한다.
Abstract
이 논문은 자율주행 코너 케이스에 대한 대규모 비전-언어 모델(LVLM)의 성능을 자동으로 평가하고 분석하기 위한 새로운 벤치마크 CODA-LM을 제안한다. CODA-LM은 CODA 데이터셋을 기반으로 구축되었으며, 일반 인지, 지역 인지, 주행 제안의 3가지 주요 과제로 구성된다.
LVLM의 성능 평가를 위해 강력한 언어 모델(LLM)을 판단자로 활용하는 새로운 평가 프레임워크를 제안한다. 이는 LVLM 판단자로 사용했을 때보다 인간 선호도와 더 높은 일관성을 보여준다.
실험 결과, 오픈소스 및 상용 LVLM 모두 자율주행 코너 케이스를 잘 다루지 못하는 것으로 나타났다. 이는 LVLM 기반 지능형 자율주행 에이전트 개발이 아직 멀어 보임을 시사한다. CODA-LM이 향후 발전의 촉매제가 되기를 기대한다.
Stats
자율주행 차량 앞에 있는 큰 버스는 차량의 경로를 막을 수 있어 주의가 필요하다.
자전거 차선에 있는 여러 명의 자전거 이용자는 취약한 도로 사용자이므로 안전에 유의해야 한다.
도로 우측의 줄무늬 장벽은 도로 레이아웃 변화나 예상치 못한 도로 상황이 있을 수 있음을 나타낸다.
Quotes
"LVLMs, with their extensive world knowledge and reasoning capability, have the potential to overcome these severe challenges."
"Automated evaluation techniques are employed in general visual scenarios for the rapid development of LVLMs, including MME using binary judgment and MMBench with single-choice formats. However, such a simplified design is not sufficient to thoroughly evaluate LVLMs on complicated scenarios like self-driving, requiring both regional perception and visual reasoning."