Keskeiset käsitteet
Der Regret-Lower-Bound in stochastischen Kontextbanditen mit Graphenfeedback wird durch den MAS-Grad charakterisiert.
Tiivistelmä
Kontextbanditen bieten vielfältige Anwendungen, aber das Lernen kann langsam sein.
Untersuchung von Regret-Lower-Bounds in Kontextbanditen mit Graphenfeedback.
Etablierung eines neuen graphentheoretischen Quantums, das den Lernlimit für diese Probleme charakterisiert.
Algorithmen, die nahezu optimale Regrets für wichtige Klassen von Kontextsequenzen und/oder Feedbackgraphen erreichen.
Der MAS-Grad charakterisiert die statistische Komplexität für Kontextbanditen mit vielen Kontexten.
Tilastot
In diesem Papier wird ein Regret-Lower-Bound Ω(√βM(G)T) etabliert.
βM(G) interpoliert zwischen α(G) und m(G) mit der Anzahl der Kontexte M.
Der MAS-Grad charakterisiert die statistische Komplexität für Kontextbanditen.
Lainaukset
"Der MAS-Grad charakterisiert die statistische Komplexität für Kontextbanditen mit vielen Kontexten."