Core Concepts
Dynamikbewusste Belohnungen verbessern die Effizienz des präferenzbasierten Verstärkungslernens signifikant.
Abstract
Präferenzbasiertes Verstärkungslernen (PbRL) nutzt Belohnungsfunktionen, die aus binärem Feedback über Agentenverhalten gelernt werden.
Dynamikbewusste Belohnungsfunktionen verbessern die Effizienz von PbRL erheblich.
Experimente zeigen, dass dynamikbewusste Belohnungsfunktionen die gleiche Leistung mit weniger Präferenzlabels erzielen.
REED belohnt schnelleres Training und reduziert die Anzahl der benötigten Präferenzproben.
Die Vorteile von REED sind unabhängig von der selbstüberwachten Zielfunktion.
Stats
In unseren Experimenten erreichen wir mit 50 Präferenzlabels die gleiche Leistung wie bestehende Ansätze mit 500 Präferenzlabels.
Wir erholen 83% und 66% der Ground-Truth-Belohnungsrichtlinienleistung im Vergleich zu nur 38% und 21%.
Quotes
"Dynamikbewusste Belohnungsfunktionen verbessern die Effizienz des präferenzbasierten Verstärkungslernens signifikant."