Core Concepts
본 논문은 제한된 적응성 하에서 일반화된 선형 문맥 밴딧 문제를 다룹니다. 두 가지 알고리즘 B-GLinCB와 RS-GLinCB를 제안하여 각각 배치 학습 모델과 희귀 정책 전환 모델에서 최적에 가까운 후회 경계를 달성합니다. 또한 이 결과에서 중요 매개변수 κ에 대한 의존성을 제거하는 것이 핵심입니다.
Abstract
본 논문은 일반화된 선형 문맥 밴딧 문제에서 제한된 적응성 하의 최적 후회 경계를 제시합니다.
배치 학습 모델:
B-GLinCB 알고리즘을 제안하여 Ω(log log T) 배치에서 O(√T) 후회를 달성합니다.
이 알고리즘은 비선형성 매개변수 κ에 대한 의존성을 제거합니다.
희귀 정책 전환 모델:
RS-GLinCB 알고리즘을 제안하여 O(log^2 T) 번의 정책 업데이트로 O(√T) 후회를 달성합니다.
이 알고리즘의 주요 항은 θ*의 크기에 의존하지 않습니다.
일반화된 선형 모델의 자기 일치성 분석을 통해 κ 의존성을 제거하는 기술적 기여를 합니다.
Stats
일반화된 선형 모델의 링크 함수 μ(z)는 |μ''(z)| ≤ Rμ'(z)를 만족합니다.
최적 팔 x의 도함수 값 μ'(〈x,θ*〉)의 최대값은 κ*로 정의됩니다.
최적 팔 x의 도함수 값 μ'(〈x,θ*〉)의 기대값은 b
κ로 정의됩니다.