The authors provide nearly-tight upper and lower bounds for the approximation factor achievable by randomized online algorithms for the improving multi-armed bandits problem, where the reward functions of the arms are concave and increasing.
Es werden nahezu optimale obere und untere Schranken für das Improving Multi-Armed Bandits Problem gezeigt. Für jeden randomisierten Online-Algorithmus gibt es eine Instanz, für die er mindestens einen Approximationsfaktor von Ω(√k) erreichen muss. Dann wird ein randomisierter Online-Algorithmus präsentiert, der einen Approximationsfaktor von O(√k) garantiert, wenn ihm der maximale Wert des besten Arms im Voraus bekannt ist. Schließlich wird gezeigt, wie diese Annahme entfernt werden kann, mit einem zusätzlichen Faktor von O(log k), was insgesamt zu einem Approximationsfaktor von O(√k log k) führt.