이 논문은 전략적 전문가가 있는 온라인 학습 문제를 다룹니다. 전문가들은 자신의 미래 평판을 최대화하기 위해 전략적으로 보고서를 제출합니다. 저자들은 이러한 상황에서 진실성 있는(incentive-compatible) 알고리즘을 설계하는 것이 어렵다는 것을 보여줍니다.
특히 저자들은 WSU-UX 알고리즘에 대한 하한을 제시합니다. WSU-UX는 배너 피드백 환경에서 O(T^2/3) 후회 상한을 달성하지만, 저자들은 어떤 하이퍼파라미터 설정에서도 최악의 경우 Ω(T^2/3) 후회를 겪을 수 있다는 것을 보여줍니다. 이는 WSU-UX가 최적 하한을 달성하지 못함을 의미합니다.
저자들은 이 결과를 통해 전략적 전문가가 있는 배너 피드백 환경에서 학습이 고전적인 배너 문제보다 근본적으로 어렵다는 것을 시사합니다. 이는 진실성 있는 알고리즘 설계의 어려움을 보여줍니다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor