Der Artikel befasst sich mit dem Problem, Verhaltensweisen aus der Evolutionsgeschichte eines Experten effizient zu lernen. Dazu wird ein inverses gebatschtes kontextuelles Bandit-Modell (IBCB) vorgeschlagen.
IBCB bietet einen einheitlichen Rahmen für sowohl deterministisches als auch randomisiertes Bandit-Verhalten. Es löst das Problem des Lernens aus der Evolutionsgeschichte mit nicht zugänglichen Belohnungen, indem es das inverse Problem als einfaches quadratisches Optimierungsproblem formuliert.
Die Experimente zeigen, dass IBCB bestehende Imitationslernen-Algorithmen in synthetischen und realen Datensätzen übertrifft und die Laufzeit deutlich reduziert. Darüber hinaus zeigt IBCB eine bessere Out-of-Distribution-Generalisierung und ist sehr effektiv im Lernen der Bandit-Politik aus der Interaktionsgeschichte von Experten mit Anfangserfahrung.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yi Xu,Weiran... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16075.pdfDeeper Inquiries