핵심 개념
과거 결정들의 전체 이력이 현재 손실에 영향을 미치는 온라인 컨벡스 최적화 문제를 다룸.
초록
이 논문은 온라인 컨벡스 최적화(OCO) 프레임워크를 일반화하여 "온라인 무제한 메모리 컨벡스 최적화"를 제안합니다. 이 프레임워크에서는 현재 손실이 과거 모든 결정에 의존할 수 있습니다.
주요 내용은 다음과 같습니다:
- p-유효 메모리 용량 Hp를 도입하여 과거 결정이 현재 손실에 미치는 최대 영향을 정량화합니다.
- Hp에 의존하는 O(√HpT) 정책 후회 상한을 증명하고, 이것이 최악의 경우 tight함을 보입니다.
- 유한 메모리 OCO의 첫 번째 비-trivial 하한을 증명합니다.
- 온라인 선형 제어와 온라인 성과 예측 문제에 이 프레임워크를 적용하여 기존 결과를 개선합니다.
통계
현재 손실 ft(ht)는 과거 모든 결정 x1, ..., xt에 의존함.
정책 후회는 PT
t=1 ft(ht) - minx∈X PT
t=1 ˜
ft(x)로 정의됨.
p-유효 메모리 용량 Hp는 과거 결정이 현재 손실에 미치는 최대 영향을 나타냄.