Core Concepts
적응형 표현 랭크 정규화 기법인 BEER를 제안하여 강화학습 에이전트의 성능을 향상시킴
Abstract
이 논문은 강화학습에서 신경망의 표현 랭크를 효과적으로 제어하는 방법을 제안한다. 기존 연구들은 표현 랭크를 무제한적으로 최대화하는 접근을 취했지만, 이는 과도하게 복잡한 모델을 생성하여 성능을 저하시킬 수 있다.
저자들은 벨만 방정식을 이론적 기반으로 하여, 연속된 상태-행동 쌍의 표현 벡터 간 코사인 유사도에 대한 상한을 도출한다. 이를 바탕으로 BEER라는 새로운 정규화 기법을 제안한다. BEER는 표현 랭크를 벨만 방정식의 제약 하에서 적응적으로 정규화하여 강화학습 에이전트의 성능을 향상시킨다.
실험 결과, BEER는 기존 방법들에 비해 표현 랭크를 더 균형있게 유지하면서 근사 오차를 낮추고 성능을 크게 개선하였다. 특히 DMControl 벤치마크에서 BEER가 다른 알고리즘들을 크게 앞섰다.
Stats
표현 벡터 간 코사인 유사도의 상한은 (∥ϕ(s, a)∥2 + γ2∥ϕ(s′, a′)∥2 - ∥r∥2 / ∥w∥2)1/2γ 이다.
BEER 알고리즘은 기존 방법들에 비해 Lunar Lander 과제에서 더 낮은 근사 오차와 더 높은 성능을 보였다.
BEER 알고리즘은 DMControl 벤치마크에서 다른 알고리즘들을 크게 앞섰다.
Quotes
"기존 연구들은 표현 랭크를 무제한적으로 최대화하는 접근을 취했지만, 이는 과도하게 복잡한 모델을 생성하여 성능을 저하시킬 수 있다."
"BEER는 표현 랭크를 벨만 방정식의 제약 하에서 적응적으로 정규화하여 강화학습 에이전트의 성능을 향상시킨다."