Kontinuierliche Online-Hyperparameteroptimierung für verallgemeinerte lineare kontextuelle Bandits
In dieser Arbeit wird ein effizienter Rahmen namens Continuous Dynamic Tuning (CDT) vorgestellt, um die Hyperparameter von kontextuellen Bandit-Algorithmen in Echtzeit kontinuierlich zu optimieren, ohne eine vorgegebene Menge von Kandidaten zu benötigen. Der Schlüsselaspekt ist die Formulierung der Hyperparameteroptimierung als ein nicht-stationäres Lipschitz-Bandit-Problem auf einem kontinuierlichen Raum, für das ein neuer Zooming TS-Algorithmus mit Restarts entwickelt wird.