핵심 개념
자율주행 기술 발전을 위해 고품질 데이터셋 구축이 필수적이며, 현존하는 데이터셋의 한계를 극복하고 차세대 데이터셋 구축을 위한 방향성을 제시한다.
초록
이 논문은 자율주행 데이터셋의 현황과 과제를 체계적으로 분석한다.
먼저 2012년부터 현재까지 약 70개의 오픈소스 자율주행 데이터셋을 소개하고, 데이터 규모, 센서 구성, 작업 범위 등을 기준으로 1세대와 2세대 데이터셋으로 구분한다. 1세대 데이터셋은 단순한 센서 구성과 작은 데이터 규모로 인지 작업 위주였지만, 2세대 데이터셋은 다양한 센서와 대규모 데이터로 인지, 예측, 제어 등 광범위한 작업을 지원한다.
이어서 데이터 레이블링, 품질 관리, 시뮬레이션 데이터 생성 등 데이터 엔진 시스템의 핵심 기술을 비교 분석한다. 특히 대규모 언어 모델(LLM)과 비전 모델을 활용한 데이터 자동 생성 기술이 주목받고 있다.
마지막으로 차세대 자율주행 데이터셋의 핵심 요소로 대규모 데이터, 다중 모달리티, 계획 지향적 작업, 시스템 수준의 프레임워크, 그리고 AGI 기반 추론 능력 등을 제시한다. 이를 통해 자율주행 기술 발전을 위한 데이터 생태계 구축의 방향성을 제시한다.
통계
자율주행 기술 발전을 위해 Tesla가 2023년 2분기에 총 3억 마일(약 4억 8천만 km)의 주행 데이터를 테스트했다.
대규모 언어 모델(LLM)과 일반화된 비전 모델의 등장은 자율주행 데이터셋 구축의 필요성을 보여준다.
인용구
"자율주행 기술 발전을 위해 대규모 고품질 데이터 구축이 필수적이다."
"대규모 언어 모델과 비전 모델의 등장은 자율주행 데이터셋 구축의 중요성을 보여준다."