Effizientes Lernen von Kontextbanditen durch Ausnutzung gemeinsamer affiner Unterräume
Durch das Lernen einer niedrigdimensionalen affinen Unterraumstruktur, in der sich die Aufgabenparameter konzentrieren, können die erwarteten Regretkosten über mehrere Kontextbanditen-Aufgaben hinweg signifikant reduziert werden.