แนวคิดหลัก
대형 사전 학습 모델을 활용하여 안전하고 향상된 자율 주행을 달성하기 위해 원치 않는 언어적 목표를 통한 반대 보상 설계 기법을 제안한다.
บทคัดย่อ
이 논문은 자율 주행 분야에서 대형 사전 학습 모델을 활용하는 새로운 보상 설계 기법인 LORD(Large Models based Opposite Reward Design)를 소개한다.
자율 주행에서 "안전하게 주행"과 같은 긍정적인 목표는 대형 모델이 이해하기 어려운 반면, "충돌"과 같은 부정적인 목표는 더 구체적이고 이해하기 쉽다는 점에 착안하여 반대 보상 설계 기법을 제안한다.
이미지, 비디오, 텍스트 기반 관측치를 활용하여 대형 사전 학습 모델(CLIP, S3D, SentenceBERT)로 관측치와 부정적 목표 간의 코사인 유사도를 계산하고, 이를 보상으로 활용한다.
제안된 LORD 기법을 강화학습 알고리즘(PPO)과 통합하여 자율 주행 태스크에 적용한다.
다양한 실험을 통해 LORD가 기존 방법들에 비해 안전하고 향상된 자율 주행 성능을 보이며, 특히 복잡한 주행 시나리오에서 우수한 일반화 능력을 보인다는 것을 확인한다.
สถิติ
충돌이 발생하면 가까운 전방 차량과의 시간 차이(time to collision)가 작아진다.
차선 변경을 하면 충돌이 발생할 수 있는 시간 차이(time to collision)가 작아진다.
คำพูด
"최근 대형 사전 학습 모델은 인간과 유사한 추론 능력을 보이며 다양한 태스크에서 뛰어난 성능을 보여주고 있다."
"자율 주행 시나리오에서 직접적인 언어적 목표를 정의하는 것은 특히 어려운 과제이며, 이를 해결하기 위한 더 정교한 전략이 필요하다."