이 논문은 자율주행 시뮬레이션을 위한 새로운 프레임워크인 CtRL-Sim을 제안한다. CtRL-Sim은 오프라인 강화학습을 활용하여 반응형이며 사용자가 제어 가능한 주행 에이전트를 생성한다.
기존 방식은 실제 주행 데이터를 재생하는 방식으로, 에이전트가 자율주행 차량의 행동에 반응하지 않아 현실적이지 않다는 한계가 있었다. 이를 해결하기 위해 규칙 기반 방식과 생성 모델 기반 방식이 제안되었지만, 여전히 현실성이 부족하거나 비용이 많이 드는 반복적인 샘플링 과정이 필요했다.
CtRL-Sim은 오프라인 강화학습을 활용하여 이러한 한계를 극복한다. 실제 주행 데이터를 Nocturne 시뮬레이터에 통과시켜 다양한 보상 함수로 주석이 달린 오프라인 강화학습 데이터셋을 구축한다. 이를 바탕으로 return-conditioned 멀티에이전트 의사결정 Transformer 모델을 학습한다. 이 모델을 통해 예측된 return 분포를 지수적으로 기울이는 방식으로 에이전트의 행동을 제어할 수 있다.
실험 결과, CtRL-Sim은 기존 방식에 비해 현실적이고 다양한 주행 행동을 생성할 수 있음을 보여준다. 또한 시뮬레이션 상에서 생성된 위험 시나리오로 모델을 fine-tuning하면 더 나은 제어 성능을 보인다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Luke Rowe,Ro... alle arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19918.pdfDomande più approfondite