In dieser Arbeit untersuchen wir die Online-Konvexe Optimierung in nichtlinearen Umgebungen und verwenden die dynamische Regret als Leistungsmaß. Der Stand der Technik für die dynamische Regret ist O(√T(1 + PT)), wobei PT die Pfadlänge der Vergleichssequenz ist und die Nichtstationarität der Umgebung widerspiegelt.
Wir zeigen, dass es möglich ist, diese Garantie für bestimmte einfache Probleminstanzen weiter zu verbessern, insbesondere wenn die Online-Funktionen glatt sind. Wir führen neuartige Online-Algorithmen ein, die Glattheit ausnutzen und die Abhängigkeit von T in der dynamischen Regret durch problemabhängige Größen ersetzen: die Variation der Gradienten der Verlustfunktionen, die kumulierte Verlust der Vergleichssequenz und das Minimum dieser beiden Terme. Diese Größen sind höchstens O(T), können aber in günstigen Umgebungen viel kleiner sein. Daher sind unsere Ergebnisse an die innere Schwierigkeit des Problems angepasst, da die Schranken für einfache Probleme enger sind und gleichzeitig die gleiche Rate im Worst-Case gewährleistet wird.
Unsere Algorithmen können eine günstige dynamische Regret mit nur einem Gradienten pro Iteration erreichen, was der gleichen Gradientenabfragekomplexität wie statische Regret-Minimierungsmethoden entspricht. Um dies zu erreichen, führen wir den kollaborativen Online-Ensemble-Rahmen ein. Dieser Rahmen verwendet eine Zwei-Schichten-Online-Ensemble, um die Nichtstationarität zu bewältigen, und nutzt optimistisches Online-Lernen sowie entscheidende Korrekturterme, um eine effektive Zusammenarbeit innerhalb der beiden Schichten zu ermöglichen und so Anpassungsfähigkeit zu erreichen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문