핵심 개념
In dieser Arbeit wird eine Verallgemeinerung des Online-Konvexe-Optimierung-Rahmens (OCO) eingeführt, die es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt. Es werden obere und untere Schranken für die Regret-Leistung in Abhängigkeit vom Zeithorizont, der p-effektiven Speicherkapazität (ein quantitatives Maß für den Einfluss vergangener Entscheidungen auf gegenwärtige Verluste) und anderen Problemparametern bewiesen.
초록
In dieser Arbeit wird ein neuer Rahmen für "Online-Konvexe Optimierung mit unbegrenztem Speicher" eingeführt, der es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt.
Der Rahmen besteht aus folgenden Komponenten:
- Entscheidungsraum X und Verlaufsraum H, die jeweils Hilbert- bzw. Banachräume sind
- Lineare Operatoren A und B, die die Dynamik des Verlaufs beschreiben
- Konvexe Verlustfunktionen ft, die vom gesamten Verlauf ht abhängen
Als Leistungsmaß wird die Regret-Leistung verwendet, die die Differenz zwischen dem Gesamtverlust des Algorithmus und dem Gesamtverlust der besten festen Entscheidung misst.
Es wird gezeigt, dass der Rahmen eine Verallgemeinerung des klassischen OCO-Rahmens sowie des OCO-Rahmens mit endlichem Speicher darstellt. Für den allgemeinen Rahmen werden obere und untere Schranken für die Regret-Leistung in Abhängigkeit von der p-effektiven Speicherkapazität Hp bewiesen.
Als Spezialfälle werden auch Regret-Schranken für OCO mit endlichem Speicher und OCO mit diskontiertem unendlichem Speicher hergeleitet.
Abschließend wird gezeigt, wie der neue Rahmen verwendet werden kann, um die Regret-Analyse für zwei scheinbar unterschiedliche Probleme, nämlich Online-Lineare-Kontrolle und Online-Performative-Vorhersage, unter einem gemeinsamen Dach zu vereinen.
통계
Es gibt keine expliziten Statistiken oder Zahlen in diesem Artikel.
인용구
"In dieser Arbeit führen wir eine Verallgemeinerung des OCO-Rahmens, "Online-Konvexe Optimierung mit unbegrenztem Speicher", ein, die es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt."
"Wir führen den Begriff der p-effektiven Speicherkapazität Hp ein, der das maximale Gewicht vergangener Entscheidungen auf gegenwärtige Verluste quantifiziert."
"Wir beweisen eine O(√HpT)-Obergrenze für die Regret-Leistung und eine passende (worst-case) Untergrenze."