이 논문은 오프라인 강화학습을 통해 자율주행 에이전트의 안전성과 일반화 성능을 향상시키는 방법을 제안합니다.
주요 내용은 다음과 같습니다:
안전 인지 인과 관계 모델(CEWM)을 제안하여 상태, 행동, 보상, 비용 간의 인과 관계를 모델링합니다. 이를 통해 안전성과 효율성의 균형을 달성할 수 있습니다.
안전 인지 비유사성 학습(CBL)을 통해 상태 표현을 학습하여 오프라인 데이터의 편향성을 극복합니다. 이를 통해 다양한 환경에서 일반화된 정책을 학습할 수 있습니다.
실험 결과, 제안 방법인 FUSION이 기존 방법들에 비해 안전성과 효율성 측면에서 우수한 성능을 보였습니다. 특히 오프라인 데이터와 온라인 환경 간 분포 차이가 큰 경우에도 강건한 성능을 보였습니다.
추가 분석을 통해 CEWM과 CBL 모듈이 FUSION의 성능 향상에 기여함을 확인하였습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문