핵심 개념
단일 카메라에서 RGB 이미지와 의미론적 분할을 입력으로 받아 실제 세계 차량을 제어하는 주행 정책을 강화 학습을 통해 얻는다.
초록
이 연구는 CARLA 시뮬레이터에서 강화 학습을 통해 실제 세계 차량을 제어하는 주행 정책을 학습하는 것을 다룬다. 주요 내용은 다음과 같다:
- 시뮬레이션에서 강화 학습을 통해 주행 정책을 학습하고, 실제 세계 차량에 성공적으로 적용할 수 있음을 확인했다.
- 지각, 제어, 학습에 대한 설계 결정이 실제 세계 성능에 어떤 영향을 미치는지 분석했다.
- 시뮬레이션에서 다양한 시각적 랜덤화가 시나리오 간 전이에 미치는 영향을 검증했다.
- 실제 세계에서 9가지 주행 시나리오에 대해 10개의 모델을 평가했으며, 총 400회 이상의 테스트 주행 결과를 보고했다.
- 두 가지 실패 사례를 설명하고, 오프라인 평가 지표와 실제 세계 성능 간의 상관관계를 분석했다.
통계
주행 정책은 10 Hz의 속도에서 250~700개의 동작을 실행해야 한다.
일부 실험에서는 조향 명령을 직접 출력하고, 다른 실험에서는 웨이포인트를 출력하여 별도의 제어 시스템을 통해 조향 명령으로 변환했다.
의미론적 분할기는 실제 세계 데이터와 합성 데이터를 혼합하여 학습했다.
인용구
"시뮬레이션에서 강화 학습을 사용하고 합성 데이터를 활용하는 것은 비용과 엔지니어링 노력을 줄이기 위한 동기가 된다."
"실제 세계 실험에서 시뮬레이션과 실제 세계 간 정책 전이를 성공적으로 달성했다."