이 논문은 오프라인 강화학습을 통해 자율주행 에이전트의 안전성과 일반화 성능을 향상시키는 방법을 제안합니다.
주요 내용은 다음과 같습니다:
안전 인지 인과 관계 모델(CEWM)을 제안하여 상태, 행동, 보상, 비용 간의 인과 관계를 모델링합니다. 이를 통해 안전성과 효율성의 균형을 달성할 수 있습니다.
안전 인지 비유사성 학습(CBL)을 통해 상태 표현을 학습하여 오프라인 데이터의 편향성을 극복합니다. 이를 통해 다양한 환경에서 일반화된 정책을 학습할 수 있습니다.
실험 결과, 제안 방법인 FUSION이 기존 방법들에 비해 안전성과 효율성 측면에서 우수한 성능을 보였습니다. 특히 오프라인 데이터와 온라인 환경 간 분포 차이가 큰 경우에도 강건한 성능을 보였습니다.
추가 분석을 통해 CEWM과 CBL 모듈이 FUSION의 성능 향상에 기여함을 확인하였습니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haohong Lin,... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.10747.pdfYêu cầu sâu hơn