VLP는 Vision-Language-Planning의 약자로, 언어 모델을 활용하여 시각 기반 자율 주행 시스템의 안전성을 향상시키는 새로운 프레임워크입니다. VLP는 Agent-centric Learning Paradigm (ALP)과 Self-driving-car-centric Learning Paradigm (SLP)이라는 두 가지 주요 구성 요소를 포함하고 있습니다. ALP는 BEV 소스 메모리를 강화하여 지역적인 세부 정보를 개선하고, SLP는 자율 주행 차량 쿼리를 개선하여 결정을 내리는 능력을 향상시킵니다. ALP는 사전 훈련된 언어 모델을 활용하여 에이전트 특징을 개선하고, SLP는 자율 주행 차량의 텍스트 기반 플래닝 특징을 가이드하여 결정을 내리는 과정을 개선합니다. 이러한 방식으로 VLP는 시각 기반 자율 주행 시스템의 문맥 이해력을 향상시키고 복잡한 실제 세계 상황에서의 일반화 능력을 향상시켜 안전한 주행을 보장합니다.
VLP의 새로운 도시 일반화 능력은 어떻게 평가되었는가?
VLP의 새로운 도시 일반화 능력은 nuScenes 데이터셋을 활용하여 Boston과 Singapore이라는 두 도시에서 훈련하고 테스트하는 실험을 통해 평가되었습니다. 이러한 실험 결과, VLP는 Boston에서 훈련하고 Singapore에서 테스트할 때, 또는 그 반대의 경우에도 기존의 시각 기반 방법에 비해 평균 L2 오차와 충돌률에서 상당한 감소를 보였습니다. 특히, VLP-VAD는 Boston에서 15.1% 및 18.5%, Singapore에서 19.2% 및 48.7%의 평균 L2 오차 및 충돌률 감소를 달성하여 강력한 제로샷 일반화 능력을 입증했습니다.
VLP의 ALP와 SLP 구성 요소는 각각 어떤 역할을 하는가?
ALP는 Agent-centric Learning Paradigm의 약자로, BEV 소스 메모리를 강화하여 지역적인 세부 정보를 개선하는 역할을 합니다. ALP는 사전 훈련된 언어 모델을 활용하여 에이전트 특징을 개선하고 BEV의 추론 능력을 강화합니다. 반면, SLP인 Self-driving-car-centric Learning Paradigm은 자율 주행 차량 쿼리를 개선하여 결정을 내리는 능력을 향상시킵니다. SLP는 텍스트 기반 플래닝 특징을 가이드하여 자율 주행 차량의 상태를 개선하고, 계획 단계에서 더 나은 결정을 내릴 수 있도록 돕습니다. 이러한 ALP와 SLP 구성 요소는 VLP의 안전성과 일반화 능력을 향상시키는 데 중요한 역할을 합니다.