Concepts de base
예측된 컨텍스트만 관찰할 수 있는 컨텍스트 밴딧 문제에 대해 기존 알고리즘의 한계를 극복하고 아차선형 회귀 보장을 제공하는 새로운 온라인 알고리즘을 제안한다.
Résumé
이 논문은 예측된 컨텍스트만 관찰할 수 있는 컨텍스트 밴딧 문제를 다룬다. 기존 알고리즘은 이러한 설정에서 선형 회귀를 달성하지 못하지만, 저자들은 새로운 알고리즘 MEB(Measurement Error Bandit)를 제안한다.
MEB의 핵심 아이디어는 다음과 같다:
- 고전 통계학의 측정오차 모델을 온라인 의사결정 문제에 확장한다. 이는 관찰된 노이즈 컨텍스트와 보상 간의 불일치를 해결하는 데 도움이 된다.
- 정책에 의존하는 측정오차를 고려하여 기존의 단순한 측정오차 조정 방법을 개선한다.
- 이를 통해 아차선형 회귀 보장을 제공하는 새로운 추정량을 제안한다.
실험 결과, MEB는 합성 데이터와 실제 데이터 환경에서 기존 알고리즘보다 우수한 성능을 보인다.
Stats
관찰된 컨텍스트 ext와 실제 컨텍스트 xt의 차이 ϵt의 분산 Σe,t는 시간에 따라 변하지 않고 알려져 있다.
보상 rt는 xt와 행동 at에 선형적으로 의존하며, 평균이 0인 노이즈 ηt가 포함된다.
컨텍스트 xt, 보상 모수 θ∗
a, 보상 rt는 모두 bounded 되어 있다.