Verbesserung des Reinforcement Lernens aus menschlichen Rückmeldungen durch den Einsatz von kontrastiven Belohnungen
Unser Ansatz führt zu einer deutlichen Verbesserung der Leistung und Robustheit des Reinforcement Lernens aus menschlichen Rückmeldungen, indem er die Unzulänglichkeiten von Belohnungsmodellen explizit berücksichtigt.