核心概念
우리는 온라인 주성분 분석을 통해 저차원 아핀 부공간을 학습하고, 이를 활용하여 선형 밴딧 문제에서 기대 누적 후회를 줄이는 두 가지 전략을 제안하고 분석한다.
摘要
이 논문은 메타 학습을 통해 여러 문맥 확률 밴딧 과제를 학습하는 문제를 다룬다. 저자들은 과제 분포가 저차원 아핀 부공간 주변에 집중된다고 가정하고, 온라인 주성분 분석을 통해 이 구조를 학습한다. 이를 활용하여 두 가지 의사결정 전략을 제안한다:
불확실성에 대한 낙관주의 원칙에 기반한 LinUCB 변형
톰슨 샘플링 변형
이 두 전략에 대해 이론적 분석을 수행하여 저차원 구조 학습의 이점을 입증한다. 또한 시뮬레이션과 실제 데이터 실험을 통해 제안 방법의 성능 향상을 확인한다.
統計資料
과제 매개변수 θ*는 평균 μ를 가지는 확률 분포 ρ에서 독립적으로 추출된다.
과제 매개변수 θ*의 L2 노름은 V 이하이다.
보상 ϵk는 zero-mean 1-subgaussian 노이즈이다.