Khái niệm cốt lõi
Dynamikbewusste Belohnungen verbessern die Effizienz des präferenzbasierten Verstärkungslernens signifikant.
Tóm tắt
Präferenzbasiertes Verstärkungslernen (PbRL) nutzt Belohnungsfunktionen, die aus binärem Feedback über Agentenverhalten gelernt werden.
Dynamikbewusste Belohnungsfunktionen verbessern die Effizienz von PbRL erheblich.
Experimente zeigen, dass dynamikbewusste Belohnungsfunktionen die gleiche Leistung mit weniger Präferenzlabels erzielen.
REED belohnt schnelleres Training und reduziert die Anzahl der benötigten Präferenzproben.
Die Vorteile von REED sind unabhängig von der selbstüberwachten Zielfunktion.
Thống kê
In unseren Experimenten erreichen wir mit 50 Präferenzlabels die gleiche Leistung wie bestehende Ansätze mit 500 Präferenzlabels.
Wir erholen 83% und 66% der Ground-Truth-Belohnungsrichtlinienleistung im Vergleich zu nur 38% und 21%.
Trích dẫn
"Dynamikbewusste Belohnungsfunktionen verbessern die Effizienz des präferenzbasierten Verstärkungslernens signifikant."