배치 데이터 환경에서 관련 특성만을 점진적으로 포함하여 공정성과 효율성을 향상시키는 온라인 밴딧 알고리즘을 제안한다.
전략적 전문가 문제에서 진실성 있는 알고리즘을 설계하는 것은 어렵다. WSU-UX 알고리즘은 최악의 경우 Ω(T^2/3) 후회를 겪을 수 있으며, 이는 최적 하한을 달성하지 못한다.
온라인 학습 도메인은 실제 응용 프로그램에서의 광범위한 사용으로 인해 다양한 방향으로 발전해왔지만, 이는 입력 특성 공간이 일정하다는 가정 하에 이루어졌다. 이 논문에서는 이러한 가정을 포기하고 무작위 입력에 대한 온라인 학습을 다룬다.
과거 결정들의 전체 이력이 현재 손실에 영향을 미치는 온라인 컨벡스 최적화 문제를 다룸.
최적화 온라인 미러 하강법은 확률적 및 적대적 온라인 볼록 최적화 문제에서 기대 정적 후회 및 동적 후회에 대한 이론적 보장을 제공한다.
이 연구는 온라인 학습 관점에서 반복적인 대리인-본인 문제를 연구합니다. 본인의 목표는 대리인의 유형(비용 및 생산 함수)에 대한 사전 지식 없이 반복적인 상호 작용을 통해 자신의 효용을 최대화하는 최적의 계약을 학습하는 것입니다.
온라인 학습에서 안전 제약 조건을 준수하면서 후회를 최소화하는 일반 메타 알고리즘을 제시합니다.
기존의 원시-이중 알고리즘을 약한 적응성을 갖춘 것으로 업그레이드하여 예산 및 ROI 제약 조건 하의 온라인 학습 문제를 해결할 수 있음을 입증합니다.