Centrala begrepp
Der Artikel präsentiert optimale Online-Algorithmen für das Problem der geglätteten quadratischen Online-Optimierung, die sowohl in stochastischen als auch in adversariellen Umgebungen nahezu optimale Leistung erbringen.
Sammanfattning
Der Artikel untersucht das Problem der geglätteten quadratischen Online-Optimierung (SOQO), bei dem ein Spieler in jeder Runde t eine Aktion xt wählen muss, um eine quadratische Zielkostenfunktion ft(x) = 1/2(x-vt)^T A(x-vt) und eine quadratische Umschaltkosten c(xt, xt-1) = 1/2||xt-xt-1||^2 zu minimieren. Die Folge der Minimierungspunkte {vt}t kann dabei entweder adversariell oder stochastisch sein.
Der Artikel liefert die folgenden Hauptbeiträge:
Charakterisierung eines stochastisch online-optimalen Algorithmus (LAI): Für den Fall, dass {vt}t einen Martingalprozess bildet, wird ein verteilungsunabhängiger dynamischer Interpolationsalgorithmus (LAI) hergeleitet, der eine optimale stochastische Leistung aufweist.
Analyse des adversariell optimalen Algorithmus (ROBD) im stochastischen Kontext: Es wird gezeigt, dass ROBD eine lineare Regret-Schranke im Vergleich zu LAI aufweist, selbst in sehr einfachen stochastischen Umgebungen.
Analyse des stochastisch optimalen Algorithmus (LAI) im adversariellen Kontext: Es wird bewiesen, dass LAI eine suboptimale Wettbewerbsrate im Vergleich zum adversariell optimalen ROBD-Algorithmus aufweist.
Entwurf eines "Best-of-Both-Worlds"-Algorithmus (LAI(γ)): Es wird ein neuartiger Algorithmus LAI(γ) entwickelt, der sowohl in stochastischen als auch in adversariellen Umgebungen nahezu optimale Leistung erbringt, ohne Vorkenntnisse über die Art der Umgebung zu benötigen.
Statistik
Die Varianz der Inkremente (vt-vt-1) wird mit σ^2 bezeichnet.
Citat
Keine relevanten Zitate identifiziert.