이 논문은 자율주행 시뮬레이션을 위한 모델 기반 강화-모방 학습 프레임워크 MRIC를 제안한다.
첫째, 차등 가능한 시뮬레이션을 통한 상태 매칭 방식의 장단점을 분석한다. 이를 통해 기울기 고속도로와 에이전트 간 기울기 경로의 존재를 밝혀내어 효율적인 신용 할당을 이론적으로 입증한다. 하지만 기울기 폭발과 저밀도 영역의 약한 감독 문제도 발견한다.
둘째, 이러한 문제를 해결하기 위해 두 가지 정책 정규화를 제안한다. 하나는 안정적인 학습을 위한 개방형 모델 기반 모방 학습 정규화이고, 다른 하나는 저밀도 영역에 도메인 지식을 주입하는 모델 기반 강화 학습 정규화이다. 모델 기반 강화 학습에서는 미닥스키 차이 기반 충돌 회피 보상과 투영 기반 주행 및 교통 규칙 준수 보상을 구성한다.
셋째, 에이전트 간 행동 다양성을 효과적으로 모델링하기 위해 시간적으로 추상화된 혼합 코드북 모듈을 제안한다. 이는 이산 잠재 공간과 동적 사전 분포를 사용하여 사전 구멍과 사후 붕괴 문제를 해결한다.
실험 결과, MRIC는 충돌률, minSADE, 시간 대 충돌 JSD 등 주요 지표에서 큰 격차로 최신 기술을 능가하며, 행동 다양성, 행동 사실성, 분포 사실성 측면에서도 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Baotian He,Y... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18464.pdfDeeper Inquiries