In dieser Arbeit stellen wir eine innovative Methode namens Continual Optimal Policy Regularization (COPR) vor, um kontinuierlich menschliche Präferenzen zu lernen.
COPR berechnet die Sequenz der optimalen Strategieverteilungen in Szenarien, in denen sich menschliche Präferenzen kontinuierlich weiterentwickeln. Dann verwenden wir die optimalen Strategieverteilungen als Supervisionssignal und Regularisierungsziel, um das Strategiemodell feinabzustimmen. Intuitiv bringt COPR die Verteilung der Strategie nahe an die optimale Strategie für die aktuelle Aufgabe und verhindert, dass sie sich zu weit von den historisch optimalen Strategien für vergangene Aufgaben entfernt.
Im Gegensatz zu herkömmlichen RLHF-Methoden erfordert COPR nur eine einzige Lernphase und keine komplexe Verstärkungslernung. Darüber hinaus teilt es die Fähigkeit von RLHF, aus unmarkierten Daten zu lernen, indem es ein Bewertungsmodul ähnlich wie ein Belohnungsmodell beibehält, was es für kontinuierliches Lernen ohne menschliches Feedback flexibel macht.
Unsere experimentellen Ergebnisse zeigen, dass COPR starke kontinuierliche Lerngrundlagen übertrifft, wenn es darum geht, sich konsistent an menschliche Präferenzen bei inkrementellen Aufgaben und Domänen anzupassen.
To Another Language
from source content
arxiv.org
Djupare frågor