Die Studie befasst sich mit dem Problem der effizienten Hyperparameteroptimierung für kontextuelle Bandit-Algorithmen. Bisherige Ansätze erfordern entweder eine vorgegebene Menge von Hyperparameter-Kandidaten oder können nur einen einzelnen Hyperparameter anpassen.
Um diese Einschränkungen zu überwinden, schlagen die Autoren einen neuartigen Rahmen namens Continuous Dynamic Tuning (CDT) vor. Dieser formuliert die Hyperparameteroptimierung als ein nicht-stationäres Lipschitz-Bandit-Problem auf einem kontinuierlichen Raum. Dafür entwickeln sie einen neuen Zooming TS-Algorithmus mit Restarts, der die Hyperparametersuche effizient gestaltet und an Umgebungsveränderungen anpasst.
Der CDT-Rahmen besteht aus zwei Ebenen: In der oberen Ebene wird der Zooming TS-Algorithmus verwendet, um die optimalen Hyperparameterwerte online zu finden. In der unteren Ebene läuft der eigentliche kontextuelle Bandit-Algorithmus mit den gewählten Hyperparametern. Die theoretische Analyse zeigt, dass CDT einen sublinearen Regret-Verlauf erreichen kann.
Experimente mit verschiedenen linearen und verallgemeinerten linearen Bandit-Algorithmen auf synthetischen und realen Datensätzen belegen die Überlegenheit von CDT gegenüber bisherigen Hyperparameteroptimierungsverfahren.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor