Effizientes inverses gebatschtes kontextuelles Bandit-Lernen für die Verhaltensevolutionsgeschichte
Das vorgeschlagene IBCB-Modell bietet einen einheitlichen Rahmen für deterministisches und randomisiertes Bandit-Verhalten und löst das Problem des Lernens aus der Evolutionsgeschichte mit nicht zugänglichen Belohnungen durch ein einfaches quadratisches Optimierungsproblem.