이 연구는 자율주행 시뮬레이션에서 인간과 호환되는 효과적인 자율주행 에이전트를 개발하는 방법을 제안한다. 기존의 자율주행 에이전트는 현실적이지 않거나 폐쇄 루프 환경에서 불안정한 문제가 있었다. 이를 해결하기 위해 저자들은 Human-Regularized PPO (HR-PPO)라는 다중 에이전트 강화 학습 알고리즘을 제안했다. HR-PPO는 자기 학습 과정에서 인간 참조 정책과의 KL 발산을 최소화하는 정규화 항을 추가한다. 실험 결과, HR-PPO 에이전트는 목표 달성률이 높고 충돌률이 낮으며 인간과 유사한 운전 행동을 보였다. 특히 복잡한 상호작용 시나리오에서 인간 운전자와의 협조 능력이 크게 향상되었다. 이를 통해 HR-PPO가 현실적이고 효과적인 자율주행 에이전트를 개발할 수 있음을 보였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Daphne Corne... في arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19648.pdfاستفسارات أعمق