이 논문은 자율 주행 분야에서 오프라인 강화 학습 기법의 안전성과 일반화 성능을 향상시키는 방법을 제안한다. 주요 내용은 다음과 같다:
안전 인식 인과 표현 학습 (FUSION) 프레임워크를 제안한다. FUSION은 보상, 비용, 상태, 행동 공간 간의 인과 관계를 모델링하여 구조화된 시퀀셜 추론을 가능하게 한다.
안전 인식 인과 표현 학습을 위해 두 가지 모듈을 도입한다:
다양한 실험을 통해 FUSION이 기존 방법들에 비해 분포 변화에 강인하고 안전성과 효율성을 균형있게 달성할 수 있음을 보인다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Haohong Lin,... at arxiv.org 03-14-2024
https://arxiv.org/pdf/2311.10747.pdfDeeper Inquiries