Core Concepts
다중 과제 강화 학습에서 평균 성능을 최대화하되, 각 과제의 성능을 제약 조건으로 설정하여 균형 있는 정책을 찾는 것이 핵심 아이디어이다.
Abstract
이 논문은 다중 과제 강화 학습 문제를 다룬다. 기존의 다중 과제 강화 학습 접근법은 평균 성능을 최대화하는 것이었지만, 이 논문에서는 각 과제의 성능을 제약 조건으로 설정하여 균형 있는 정책을 찾는 것이 목표이다.
논문은 중앙 집중형 및 분산형 학습 패러다임을 모두 다룬다. 중앙 집중형 설정에서는 모든 과제 정보가 단일 서버에 있는 경우이고, 분산형 설정에서는 각 에이전트가 한 개의 과제만 담당하고 서로 협력하여 전역 최적 해를 찾는다.
제안된 알고리즘은 자연 정책 경사 기반의 프라이멀-듀얼 방식으로, 정책 파라미터와 라그랑지 승수를 교대로 업데이트한다. 정책 업데이트 시 국소 경사를 이용하고 이웃 에이전트들과 파라미터를 평균화하는 방식으로 분산형 알고리즘을 구현한다.
또한 상태-행동 가치 함수를 추정하는 액터-크리틱 버전의 알고리즘도 제안되었다. 이 알고리즘은 완전히 온라인이며 단일 궤적의 연속적인 샘플을 사용한다. 마지막으로 선형 함수 근사를 이용한 확장 버전도 제시되었다.
제안된 알고리즘들은 이론적으로 엄밀한 수렴 보장과 최적 수렴 속도를 가지며, 실험적으로도 우수한 성능을 보인다.
Stats
각 과제의 성능 제약 조건 ℓi ≤ V^π_i(ρ) ≤ u_i
최적 이중 변수의 상한 B_λ = 1 / (ξ(1-γ))
Quotes
"다중 과제 강화 학습에서 평균 성능을 최대화하되, 각 과제의 성능을 제약 조건으로 설정하여 균형 있는 정책을 찾는 것이 핵심 아이디어이다."
"제안된 알고리즘들은 이론적으로 엄밀한 수렴 보장과 최적 수렴 속도를 가지며, 실험적으로도 우수한 성능을 보인다."