Concepts de base
오프라인 데이터셋의 분포 변화에도 불구하고 안전성과 효율성을 균형있게 달성할 수 있는 자율 주행 에이전트를 학습하는 것이 핵심 목표이다.
Résumé
이 논문은 자율 주행 분야에서 오프라인 강화 학습 기법의 안전성과 일반화 성능을 향상시키는 방법을 제안한다. 주요 내용은 다음과 같다:
-
안전 인식 인과 표현 학습 (FUSION) 프레임워크를 제안한다. FUSION은 보상, 비용, 상태, 행동 공간 간의 인과 관계를 모델링하여 구조화된 시퀀셜 추론을 가능하게 한다.
-
안전 인식 인과 표현 학습을 위해 두 가지 모듈을 도입한다:
- 인과 앙상블 세계 모델 (CEWM): 상태, 보상, 비용 간의 인과 관계를 모델링한다.
- 안전 인식 인과 비유사성 학습 (CBL): 상태 표현을 안전성과 효율성 측면에서 유사한 상태로 정규화한다.
-
다양한 실험을 통해 FUSION이 기존 방법들에 비해 분포 변화에 강인하고 안전성과 효율성을 균형있게 달성할 수 있음을 보인다.
Stats
오프라인 데이터셋에서 수집된 트래젝토리의 길이는 400,000 타임스텝을 초과한다.
오프라인 데이터셋은 6가지 다른 도로 구성에서 수집되었다.
안전 비용은 충돌, 도로 이탈, 과속 등 3가지 요인으로 구성된다.
Citations
"오프라인 데이터셋의 분포 변화와 다양한 안전 위험 시나리오로 인해 자율 주행 에이전트의 안전성과 일반화 성능 확보가 큰 과제로 남아있다."
"FUSION은 구조화된 시나리오 정보를 활용하여 일반화 가능한 엔드-투-엔드 주행 정책을 학습하는 선구적인 표현 학습 방법이다."