이 논문은 강화 학습 분야에서 최근 주목받고 있는 강건성 추구에 대해 다룬다. 기존 방법들은 효율성 문제로 실제 세계 구현에 어려움이 있었다.
저자들은 저차원 MDP에서 특징 벡터와 요인 벡터에 대한 이중 교란 강건성을 달성할 수 있는 새로운 (ξ, η)-직사각형 모호성 집합 개념을 제안한다. 이 새로운 강건 MDP 정식화는 함수 표현 관점과 호환되어 실제 강화 학습 문제에 자연스럽게 적용될 수 있다. 또한 이론적 수렴 속도 보장과 함께 실용적인 알고리즘을 제시한다.
예제를 통해 새로운 강건성 개념의 정당성을 입증하고, 이론적 한계와 수치 시뮬레이션을 통해 알고리즘의 효율성을 뒷받침한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문