이 논문은 예측된 컨텍스트만 관찰할 수 있는 컨텍스트 밴딧 문제를 다룬다. 기존 알고리즘은 이러한 설정에서 선형 회귀를 달성하지 못하지만, 저자들은 새로운 알고리즘 MEB(Measurement Error Bandit)를 제안한다.
MEB의 핵심 아이디어는 다음과 같다:
실험 결과, MEB는 합성 데이터와 실제 데이터 환경에서 기존 알고리즘보다 우수한 성능을 보인다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yongyi Guo,Z... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2307.13916.pdfYêu cầu sâu hơn