Ein einzelnes multimodales Großsprachmodell für komplexe offene Aufgaben
STEVE-2 ist ein neuartiges Framework, das die Einschränkungen von multimodalen Sprachmodellen (MLMs) bei offenen verkörperten Aufgaben überwindet. Es verwendet eine hierarchische Struktur für nuancierte Aufgabenteilung, einen gespiegelten Destillationsansatz zur Nutzung paralleler Simulationsdaten und ein Imaginationsmodell, um zusätzliches kontextuelles Wissen in Simulationen einzubringen. Dies steigert die Autonomie und Effektivität verkörperter Agenten, überbrückt die Lücke zwischen Aufgabenverständnis und -ausführung und passt sich dynamisch an offene Umgebungen an.