분포 강건 강화 학습(DRRL)은 훈련 환경과 테스트 환경의 차이를 극복하기 위해 제안되었다. 기존 DRRL 알고리즘은 모델 기반이거나 단일 샘플 궤적에서 학습하지 못했다. 이 논문에서는 완전히 모델 없는 DRRL 알고리즘인 DRQ를 제안한다. DRQ는 다중 시간 척도 프레임워크를 사용하여 단일 궤적에서 최적의 분포 강건 정책을 직접 학습한다. 실험 결과 DRQ가 기존 비강건 및 강건 RL 알고리즘보다 우수한 강건성과 샘플 효율성을 보여준다.
이 논문은 일반화 모델을 사용하여 강화 학습에서 모델 강건성을 줄이는 방법을 조사합니다. 저자들은 분포 강건 마르코프 의사 결정 프로세스(RMDP) 프레임워크를 채택하여 배치 환경이 명목 MDP 주변의 지정된 불확실성 집합 내에 있을 때 최악의 성능을 최적화하는 정책을 학습합니다. 저자들은 총 변동(TV) 거리 또는 χ2 발산을 사용하여 불확실성 집합을 지정할 때 RMDP의 표본 복잡성을 특성화합니다.
상호작용 데이터 수집을 통한 분포 강건 강화 학습은 근본적으로 어려운 문제이지만, 특정 가정 하에서는 효율적인 알고리즘을 설계할 수 있다.