Core Concepts
다중 모달 대형 언어 모델의 추론 능력을 활용하여 복잡한 교통 환경에서 환경 설명 및 장면 이해를 수행합니다. AccidentBlip2는 실시간으로 사고 위험 발생 여부를 예측할 수 있는 다중 모달 대형 언어 모델입니다.
Abstract
이 논문에서는 AccidentBlip2라는 다중 모달 대형 언어 모델을 제안합니다. AccidentBlip2는 6방향 서라운드 뷰 그래프의 시간적 장면을 기반으로 특징을 추출하고, 비전 트랜스포머를 통한 시간적 추론을 수행합니다. 그 후 생성된 시간적 토큰을 다중 모달 대형 언어 모델에 입력하여 사고 발생 여부를 판단합니다. AccidentBlip2는 BEV 이미지와 LiDAR에 의존하지 않기 때문에 다중 모달 대형 언어 모델의 추론 매개변수와 추론 비용을 크게 줄일 수 있으며, 학습 중에도 큰 오버헤드가 발생하지 않습니다. AccidentBlip2는 DeepAccident 데이터셋에서 기존 솔루션을 능가하며, 엔드-투-엔드 자율 주행 사고 예측을 위한 참조 솔루션을 제공할 수 있습니다.
Stats
제안된 AccidentBlip2 모델은 단일 차량 시나리오에서 66.5%의 정확도를 달성했습니다.
4대의 차량과 인프라 정보를 활용한 다중 차량 시스템에서는 73.1%의 정확도를 달성했습니다.
이는 단일 차량 시나리오 대비 약 6.6% 향상된 결과입니다.
Quotes
"AccidentBlip2는 BEV 이미지와 LiDAR에 의존하지 않기 때문에 다중 모달 대형 언어 모델의 추론 매개변수와 추론 비용을 크게 줄일 수 있습니다."
"AccidentBlip2는 DeepAccident 데이터셋에서 기존 솔루션을 능가하며, 엔드-투-엔드 자율 주행 사고 예측을 위한 참조 솔루션을 제공할 수 있습니다."