이 논문은 자율주행 데이터셋의 현황과 과제를 체계적으로 분석한다.
먼저 2012년부터 현재까지 약 70개의 오픈소스 자율주행 데이터셋을 소개하고, 데이터 규모, 센서 구성, 작업 범위 등을 기준으로 1세대와 2세대 데이터셋으로 구분한다. 1세대 데이터셋은 단순한 센서 구성과 작은 데이터 규모로 인지 작업 위주였지만, 2세대 데이터셋은 다양한 센서와 대규모 데이터로 인지, 예측, 제어 등 광범위한 작업을 지원한다.
이어서 데이터 레이블링, 품질 관리, 시뮬레이션 데이터 생성 등 데이터 엔진 시스템의 핵심 기술을 비교 분석한다. 특히 대규모 언어 모델(LLM)과 비전 모델을 활용한 데이터 자동 생성 기술이 주목받고 있다.
마지막으로 차세대 자율주행 데이터셋의 핵심 요소로 대규모 데이터, 다중 모달리티, 계획 지향적 작업, 시스템 수준의 프레임워크, 그리고 AGI 기반 추론 능력 등을 제시한다. 이를 통해 자율주행 기술 발전을 위한 데이터 생태계 구축의 방향성을 제시한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询