In dieser Arbeit wird ein neuer Rahmen für "Online-Konvexe Optimierung mit unbegrenztem Speicher" eingeführt, der es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt.
Der Rahmen besteht aus folgenden Komponenten:
Als Leistungsmaß wird die Regret-Leistung verwendet, die die Differenz zwischen dem Gesamtverlust des Algorithmus und dem Gesamtverlust der besten festen Entscheidung misst.
Es wird gezeigt, dass der Rahmen eine Verallgemeinerung des klassischen OCO-Rahmens sowie des OCO-Rahmens mit endlichem Speicher darstellt. Für den allgemeinen Rahmen werden obere und untere Schranken für die Regret-Leistung in Abhängigkeit von der p-effektiven Speicherkapazität Hp bewiesen.
Als Spezialfälle werden auch Regret-Schranken für OCO mit endlichem Speicher und OCO mit diskontiertem unendlichem Speicher hergeleitet.
Abschließend wird gezeigt, wie der neue Rahmen verwendet werden kann, um die Regret-Analyse für zwei scheinbar unterschiedliche Probleme, nämlich Online-Lineare-Kontrolle und Online-Performative-Vorhersage, unter einem gemeinsamen Dach zu vereinen.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Raunak Kumar... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2210.09903.pdfاستفسارات أعمق