이 논문은 예측된 컨텍스트만 관찰 가능한 상황에서 온라인 밴딧 문제를 다룬다. 기존의 밴딧 알고리즘은 실제 컨텍스트를 관찰할 수 있다는 가정 하에 설계되었기 때문에, 예측 오차가 존재하는 경우 성능이 저하된다.
저자들은 이러한 문제를 해결하기 위해 MEB(Measurement Error Bandit) 알고리즘을 제안하였다. MEB는 측정 오차 모델을 온라인 의사결정 문제에 확장하여, 예측 오차를 고려한 보상 모델 추정 방법을 사용한다. 이를 통해 예측 오차가 존재하더라도 하위 선형 회귀 보장을 달성할 수 있다.
구체적으로 MEB는 다음과 같은 과정으로 동작한다:
저자들은 이러한 MEB 알고리즘이 표준 벤치마크 대비 e
O(T^2/3) 회귀 보장, 클립 벤치마크 대비 e
O(T^1/2) 회귀 보장을 달성함을 이론적으로 증명하였다. 또한 합성 데이터와 실제 데이터를 활용한 실험에서도 MEB의 우수한 성능을 확인하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yongyi Guo,Z... at arxiv.org 03-19-2024
https://arxiv.org/pdf/2307.13916.pdfDeeper Inquiries