In dieser Arbeit wird ein neuer Rahmen für "Online-Konvexe Optimierung mit unbegrenztem Speicher" eingeführt, der es ermöglicht, dass der Verlust in der aktuellen Runde vom gesamten Verlauf der Entscheidungen bis zu diesem Zeitpunkt abhängt.
Der Rahmen besteht aus folgenden Komponenten:
Als Leistungsmaß wird die Regret-Leistung verwendet, die die Differenz zwischen dem Gesamtverlust des Algorithmus und dem Gesamtverlust der besten festen Entscheidung misst.
Es wird gezeigt, dass der Rahmen eine Verallgemeinerung des klassischen OCO-Rahmens sowie des OCO-Rahmens mit endlichem Speicher darstellt. Für den allgemeinen Rahmen werden obere und untere Schranken für die Regret-Leistung in Abhängigkeit von der p-effektiven Speicherkapazität Hp bewiesen.
Als Spezialfälle werden auch Regret-Schranken für OCO mit endlichem Speicher und OCO mit diskontiertem unendlichem Speicher hergeleitet.
Abschließend wird gezeigt, wie der neue Rahmen verwendet werden kann, um die Regret-Analyse für zwei scheinbar unterschiedliche Probleme, nämlich Online-Lineare-Kontrolle und Online-Performative-Vorhersage, unter einem gemeinsamen Dach zu vereinen.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Raunak Kumar... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2210.09903.pdfสอบถามเพิ่มเติม