Core Concepts
메타 강화 학습에서 사용되는 기존 확률적 메타 경사도 추정기는 실제로 편향되어 있다. 이러한 메타 경사도 편향은 두 가지 원인에서 비롯된다: 1) 두 단계 문제 구조에서 발생하는 합성 편향, 2) 자동 미분 사용으로 인한 다단계 헤시안 추정 편향.
Abstract
이 논문은 메타 강화 학습(GMRL) 알고리즘의 변형을 설명하는 통일된 프레임워크를 제시하고, 기존 GMRL 알고리즘에서 사용되는 확률적 메타 경사도 추정기가 실제로 편향되어 있음을 지적한다. 이러한 메타 경사도 편향은 두 가지 원인에서 비롯된다:
합성 편향: 두 단계 문제 구조에서 발생하는 편향으로, 내부 루프 업데이트 단계 K, 학습률 α, 추정 분산 ˆ
𝜎2
In 및 샘플 크기 |𝜏|에 대해 O𝐾𝛼𝐾ˆ
𝜎In|𝜏|−0.5의 상한을 가진다.
다단계 헤시안 추정 편향: 자동 미분 사용으로 인한 편향으로, O(𝐾−1)( ˆ
Δ𝐻)𝐾−1의 다항식 영향을 메타 경사도 편향에 미친다.
이 논문은 표 MDP에 대한 실험적 증거를 제시하여 기존 확률적 메타 경사도 추정기에 대한 이론적 발견을 입증한다. 또한 죄수의 딜레마 반복 게임과 Atari 게임에 대한 실험을 통해 오프 정책 학습 및 저편향 추정기와 같은 방법이 GMRL 알고리즘의 경사도 편향을 해결할 수 있음을 보여준다.
Stats
내부 루프 업데이트 단계 K가 증가할수록 메타 경사도 편향이 지수적으로 증가한다.
학습률 α가 증가할수록 메타 경사도 편향이 다항식적으로 증가한다.
샘플 크기 |𝜏|가 증가할수록 메타 경사도 편향이 다항식적으로 감소한다.
헤시안 추정 편향 ˆ
Δ𝐻이 증가할수록 메타 경사도 편향이 다항식적으로 증가한다.
Quotes
"메타 강화 학습(GMRL) 작업은 일반적으로 두 단계 최적화 절차로 공식화될 수 있다."
"기존 GMRL 방법에서 채택한 확률적 메타 경사도 추정기는 실제로 편향되어 있다."
"이러한 메타 경사도 편향은 두 가지 원인에서 비롯된다: 1) 두 단계 문제 구조에서 발생하는 합성 편향, 2) 다단계 헤시안 추정 편향."