RIME ist ein Algorithmus für präferenzbasiertes Verstärkungslernen, der darauf abzielt, die Robustheit gegenüber verrauschten Präferenzen zu verbessern. Im Gegensatz zu früheren Arbeiten, die in erster Linie auf eine Steigerung der Rückmeldungseffizienz abzielen, konzentriert sich RIME auf die Verbesserung der Robustheit.
RIME verwendet einen diskriminatorbasierten Ansatz zur dynamischen Bereinigung von Präferenzen. Um den durch fehlerhafte Auswahl verursachten kumulierten Fehler zu reduzieren, nutzt RIME eine Warm-Start-Methode für das Belohnungsmodell, um die anfängliche Leistungsfähigkeit des Bereinigungsdiskriminators zu verbessern. Der Warm-Start-Ansatz dient auch dazu, die Leistungslücke während des Übergangs vom Vortraining zur Online-Trainingsphase zu überbrücken und einen nahtlosen Übergang zu ermöglichen.
Die Experimente zeigen, dass RIME die Robustheit des aktuellen Spitzenwerts der präferenzbasierten Verstärkungslernung deutlich verbessert, und zwar über eine Reihe komplexer Robotersteuerungs- und Fortbewegungsaufgaben hinweg. Die Ablationsstudien zeigen außerdem, dass der Warm-Start-Ansatz sowohl für die Robustheit als auch für die Rückmeldungseffizienz entscheidend ist.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問