toplogo
ลงชื่อเข้าใช้

대형 모델 기반 반대 보상 설계를 통한 자율 주행 기술


แนวคิดหลัก
대형 사전 학습 모델을 활용하여 안전하고 향상된 자율 주행을 달성하기 위해 원치 않는 언어적 목표를 통한 반대 보상 설계 기법을 제안한다.
บทคัดย่อ
이 논문은 자율 주행 분야에서 대형 사전 학습 모델을 활용하는 새로운 보상 설계 기법인 LORD(Large Models based Opposite Reward Design)를 소개한다. 자율 주행에서 "안전하게 주행"과 같은 긍정적인 목표는 대형 모델이 이해하기 어려운 반면, "충돌"과 같은 부정적인 목표는 더 구체적이고 이해하기 쉽다는 점에 착안하여 반대 보상 설계 기법을 제안한다. 이미지, 비디오, 텍스트 기반 관측치를 활용하여 대형 사전 학습 모델(CLIP, S3D, SentenceBERT)로 관측치와 부정적 목표 간의 코사인 유사도를 계산하고, 이를 보상으로 활용한다. 제안된 LORD 기법을 강화학습 알고리즘(PPO)과 통합하여 자율 주행 태스크에 적용한다. 다양한 실험을 통해 LORD가 기존 방법들에 비해 안전하고 향상된 자율 주행 성능을 보이며, 특히 복잡한 주행 시나리오에서 우수한 일반화 능력을 보인다는 것을 확인한다.
สถิติ
충돌이 발생하면 가까운 전방 차량과의 시간 차이(time to collision)가 작아진다. 차선 변경을 하면 충돌이 발생할 수 있는 시간 차이(time to collision)가 작아진다.
คำพูด
"최근 대형 사전 학습 모델은 인간과 유사한 추론 능력을 보이며 다양한 태스크에서 뛰어난 성능을 보여주고 있다." "자율 주행 시나리오에서 직접적인 언어적 목표를 정의하는 것은 특히 어려운 과제이며, 이를 해결하기 위한 더 정교한 전략이 필요하다."

ข้อมูลเชิงลึกที่สำคัญจาก

by Xin Ye,Feng ... ที่ arxiv.org 03-29-2024

https://arxiv.org/pdf/2403.18965.pdf
LORD

สอบถามเพิ่มเติม

자율 주행 외에 다른 어떤 분야에서 이 반대 보상 설계 기법이 활용될 수 있을까?

이 반대 보상 설계 기법은 자율 주행 이외의 다양한 분야에서도 유용하게 활용될 수 있습니다. 예를 들어, 로봇 공학 분야에서 로봇이 특정 작업을 수행할 때 원치 않는 결과를 피하도록 하는데 사용될 수 있습니다. 또한, 산업 자동화나 의료 분야에서도 이 기법을 적용하여 시스템이 원치 않는 사건을 방지하고 안전을 유지할 수 있습니다. 또한, 환경 보호나 에너지 효율성을 향상시키는 데에도 이러한 반대 보상 설계 기법을 적용할 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star