Durch den Einsatz von Reinforcement Learning können einfache und interpretierbare Tipps abgeleitet werden, die die Leistung von Menschen bei sequentiellen Entscheidungsproblemen signifikant verbessern können.
Der Hauptbeitrag dieser Arbeit ist die Entwicklung eines neuen Online-Algorithmus, MEB (Measurement Error Bandit), der sublineare Regret-Garantien in kontextuellen Banditen mit verrauschtem Kontext bietet, bei denen nur begrenzte Kenntnisse über die Rauschverteilung vorliegen.