Core Concepts
본 논문은 환경의 어려움에 비례하여 정책 후회를 가지는 알고리즘을 제안한다. 구체적으로 실제 관찰된 비용에 비례하여 정규화되는 Follow The Regularized Leader (FTRL) 프레임워크를 동적 시스템에 맞춰 조정한다. 상태 또는 메모리로 인한 온라인 결정의 영향이 결합되는 문제를 해결하기 위해 새로운 분석 기법을 제안한다. 이를 통해 비용 궤적의 기울기가 작을 때 축소되는 하위 선형 데이터 적응형 정책 후회 한계를 가지는 새로운 교란 작용 제어기를 얻는다.
Abstract
본 논문은 비확률적 제어 문제를 다룬다. 구체적으로 동적 시스템의 상태 변화가 학습자의 행동과 외부 매개변수의 알 수 없는 조합에 의해 발생하는 경우, 최소 비용을 견디는 정책을 찾는 문제를 다룬다.
논문은 다음과 같이 진행된다:
선형 시불변 (LTI) 동적 시스템 모델을 소개하고, 비확률적 제어 문제와 정책 후회 성능 지표를 정의한다.
Follow The Regularized Leader (FTRL) 알고리즘을 동적 시스템에 맞게 조정한 AdaFTRL-C 알고리즘을 제안한다. 이 알고리즘은 관찰된 비용에 비례하여 정규화되는 적응형 정책을 생성한다.
AdaFTRL-C의 정책 후회 한계를 분석한다. 기존 방법보다 관찰된 비용 기울기가 작을 때 더 나은 성능을 보이지만, 최악의 경우에도 여전히 하위 선형 후회를 보장한다.
수치 실험을 통해 AdaFTRL-C의 적응성이 제공하는 이점을 보여준다. 특히 비용이 작은 환경에서 큰 성능 향상을 달성하고, 최악의 경우에도 기존 방법과 유사한 수준의 성능을 유지한다.
Stats
동적 시스템의 상태 변화는 xt+1 = Axt + But + wt로 표현된다.
비용 함수 ct(xt, ut)는 l-Lipschitz 연속 볼록 함수이다.
교란 벡터 wt의 크기는 ∥w∥≤w로 상한이 주어진다.
Quotes
"본 논문은 환경의 어려움에 비례하여 정책 후회를 가지는 알고리즘을 제안한다."
"구체적으로 실제 관찰된 비용에 비례하여 정규화되는 Follow The Regularized Leader (FTRL) 프레임워크를 동적 시스템에 맞춰 조정한다."
"상태 또는 메모리로 인한 온라인 결정의 영향이 결합되는 문제를 해결하기 위해 새로운 분석 기법을 제안한다."