RIME ist ein Algorithmus für präferenzbasiertes Verstärkungslernen, der darauf abzielt, die Robustheit gegenüber verrauschten Präferenzen zu verbessern. Im Gegensatz zu früheren Arbeiten, die in erster Linie auf eine Steigerung der Rückmeldungseffizienz abzielen, konzentriert sich RIME auf die Verbesserung der Robustheit.
RIME verwendet einen diskriminatorbasierten Ansatz zur dynamischen Bereinigung von Präferenzen. Um den durch fehlerhafte Auswahl verursachten kumulierten Fehler zu reduzieren, nutzt RIME eine Warm-Start-Methode für das Belohnungsmodell, um die anfängliche Leistungsfähigkeit des Bereinigungsdiskriminators zu verbessern. Der Warm-Start-Ansatz dient auch dazu, die Leistungslücke während des Übergangs vom Vortraining zur Online-Trainingsphase zu überbrücken und einen nahtlosen Übergang zu ermöglichen.
Die Experimente zeigen, dass RIME die Robustheit des aktuellen Spitzenwerts der präferenzbasierten Verstärkungslernung deutlich verbessert, und zwar über eine Reihe komplexer Robotersteuerungs- und Fortbewegungsaufgaben hinweg. Die Ablationsstudien zeigen außerdem, dass der Warm-Start-Ansatz sowohl für die Robustheit als auch für die Rückmeldungseffizienz entscheidend ist.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jie Cheng,Ga... às arxiv.org 03-13-2024
https://arxiv.org/pdf/2402.17257.pdfPerguntas Mais Profundas