이 논문은 자율 주행 분야에서 대형 사전 학습 모델을 활용하는 새로운 보상 설계 기법인 LORD(Large Models based Opposite Reward Design)를 소개한다.
자율 주행에서 "안전하게 주행"과 같은 긍정적인 목표는 대형 모델이 이해하기 어려운 반면, "충돌"과 같은 부정적인 목표는 더 구체적이고 이해하기 쉽다는 점에 착안하여 반대 보상 설계 기법을 제안한다.
이미지, 비디오, 텍스트 기반 관측치를 활용하여 대형 사전 학습 모델(CLIP, S3D, SentenceBERT)로 관측치와 부정적 목표 간의 코사인 유사도를 계산하고, 이를 보상으로 활용한다.
제안된 LORD 기법을 강화학습 알고리즘(PPO)과 통합하여 자율 주행 태스크에 적용한다.
다양한 실험을 통해 LORD가 기존 방법들에 비해 안전하고 향상된 자율 주행 성능을 보이며, 특히 복잡한 주행 시나리오에서 우수한 일반화 능력을 보인다는 것을 확인한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問