Core Concepts
Vision-Sprache-Modelle können als leistungsfähige, nullschuss-basierte Belohnungsmodelle für Reinforcement Learning verwendet werden, um komplexe Aufgaben ohne manuell spezifizierte Belohnungsfunktionen zu lernen.
Abstract
Die Studie untersucht, wie man Vortrainierte Vision-Sprache-Modelle (VLMs) wie CLIP als Belohnungsmodelle für Reinforcement Learning (RL) verwenden kann. Dies ermöglicht es, Aufgaben über natürliche Sprache zu spezifizieren, ohne eine manuelle Belohnungsfunktion erstellen zu müssen.
Die Autoren schlagen einen allgemeinen Ansatz vor, VLMs als "VLM-RMs" zu verwenden. Sie zeigen, dass VLM-RMs basierend auf CLIP erfolgreich genutzt werden können, um einen MuJoCo-Humanoiden komplexe Aufgaben wie Knien, Lotussitz und Spagat lernen zu lassen, indem nur eine einfache Textbeschreibung der Aufgabe vorgegeben wird.
Die Autoren finden außerdem einen starken Skalierungseffekt: Größere VLMs, die mit mehr Rechenleistung und Daten trainiert wurden, sind bessere Belohnungsmodelle. Die Schwachstellen von VLM-RMs hängen mit bekannten Fähigkeitsgrenzen aktueller VLMs zusammen, wie eingeschränkter räumlicher Schlussfolgerungsfähigkeit oder visuell unrealistischen Umgebungen. Insgesamt zeigen die Ergebnisse, dass zukünftige VLMs immer nützlicher als Belohnungsmodelle für eine Vielzahl von RL-Anwendungen werden.
Stats
Die Autoren verwenden CLIP-Modelle verschiedener Größen (RN50, ViT-L-14, ViT-H-14, ViT-bigG-14) als Belohnungsmodelle.
Die größeren CLIP-Modelle erzielen deutlich bessere Ergebnisse als die kleineren Modelle.
Mit dem größten öffentlich verfügbaren CLIP-Modell (ViT-bigG-14) können die Autoren alle getesteten Aufgaben für den Humanoiden erfolgreich lösen, während die kleineren Modelle versagen.
Quotes
"Größere VLMs, die mit mehr Rechenleistung und Daten trainiert wurden, sind bessere Belohnungsmodelle."
"Die Schwachstellen von VLM-RMs hängen mit bekannten Fähigkeitsgrenzen aktueller VLMs zusammen, wie eingeschränkter räumlicher Schlussfolgerungsfähigkeit oder visuell unrealistischen Umgebungen."