이 논문은 전략적 전문가가 있는 온라인 학습 문제를 다룹니다. 전문가들은 자신의 미래 평판을 최대화하기 위해 전략적으로 보고서를 제출합니다. 저자들은 이러한 상황에서 진실성 있는(incentive-compatible) 알고리즘을 설계하는 것이 어렵다는 것을 보여줍니다.
특히 저자들은 WSU-UX 알고리즘에 대한 하한을 제시합니다. WSU-UX는 배너 피드백 환경에서 O(T^2/3) 후회 상한을 달성하지만, 저자들은 어떤 하이퍼파라미터 설정에서도 최악의 경우 Ω(T^2/3) 후회를 겪을 수 있다는 것을 보여줍니다. 이는 WSU-UX가 최적 하한을 달성하지 못함을 의미합니다.
저자들은 이 결과를 통해 전략적 전문가가 있는 배너 피드백 환경에서 학습이 고전적인 배너 문제보다 근본적으로 어렵다는 것을 시사합니다. 이는 진실성 있는 알고리즘 설계의 어려움을 보여줍니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies