Core Concepts
안장점 최적화를 통해 순차적 의사결정 문제에서 후회를 최소화할 수 있다.
Abstract
이 논문은 순차적 의사결정 문제에서 후회를 최소화하는 방법을 제안한다.
- 후회 최소화 문제를 안장점 게임으로 정식화하고, 이를 통해 후회 상한을 도출한다.
- 안장점 게임을 재매개변수화하여 ANYTIME-E2D 알고리즘을 제안한다. 이 알고리즘은 탐험-활용 트레이드오프를 온라인으로 최적화한다.
- 유한 모델 클래스와 선형 피드백 모델에 대해 구체적인 구현 방법을 제시한다.
- 선형 밴딧 문제에서 기존 접근법보다 향상된 성능을 보인다.
- 정보 비율, 분리 계수, PAC-DEC 등 관련 개념과의 연결점을 제시한다.
- 간단한 예제에서 E2D 알고리즘의 성능을 실험적으로 평가한다.
Stats
최악의 경우 후회는 O(n√d)이다.
선형 밴딧 문제에서 측면 관측을 활용하면 최악의 경우 후회가 O(d1/3n2/3)로 개선될 수 있다.
Quotes
"후회 최소화는 순차적 의사결정 이론에서 널리 연구되는 목표이다."
"후회 최소화 문제를 안장점 게임으로 정식화하고, 이를 통해 후회 상한을 도출할 수 있다."
"ANYTIME-E2D 알고리즘은 탐험-활용 트레이드오프를 온라인으로 최적화한다."