Dieser Artikel befasst sich mit der Entwicklung von Methoden, die in der Lage sind, unvorhersehbare Eingaben in Online-Lernszenarien effektiv zu modellieren und zu verarbeiten.
In dieser Arbeit wird eine Verallgemeinerung des Online-Konvexe-Optimierung-Rahmens (OCO) eingeführt, die es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt. Es werden obere und untere Schranken für die Regret-Leistung in Abhängigkeit vom Zeithorizont, der p-effektiven Speicherkapazität (ein quantitatives Maß für den Einfluss vergangener Entscheidungen auf gegenwärtige Verluste) und anderen Problemparametern bewiesen.