Die Studie untersucht, wie man Vortrainierte Vision-Sprache-Modelle (VLMs) wie CLIP als Belohnungsmodelle für Reinforcement Learning (RL) verwenden kann. Dies ermöglicht es, Aufgaben über natürliche Sprache zu spezifizieren, ohne eine manuelle Belohnungsfunktion erstellen zu müssen.
Die Autoren schlagen einen allgemeinen Ansatz vor, VLMs als "VLM-RMs" zu verwenden. Sie zeigen, dass VLM-RMs basierend auf CLIP erfolgreich genutzt werden können, um einen MuJoCo-Humanoiden komplexe Aufgaben wie Knien, Lotussitz und Spagat lernen zu lassen, indem nur eine einfache Textbeschreibung der Aufgabe vorgegeben wird.
Die Autoren finden außerdem einen starken Skalierungseffekt: Größere VLMs, die mit mehr Rechenleistung und Daten trainiert wurden, sind bessere Belohnungsmodelle. Die Schwachstellen von VLM-RMs hängen mit bekannten Fähigkeitsgrenzen aktueller VLMs zusammen, wie eingeschränkter räumlicher Schlussfolgerungsfähigkeit oder visuell unrealistischen Umgebungen. Insgesamt zeigen die Ergebnisse, dass zukünftige VLMs immer nützlicher als Belohnungsmodelle für eine Vielzahl von RL-Anwendungen werden.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Juan Rocamon... klo arxiv.org 03-15-2024
https://arxiv.org/pdf/2310.12921.pdfSyvällisempiä Kysymyksiä