Core Concepts
STEVE-2 ist ein neuartiges Framework, das die Einschränkungen von multimodalen Sprachmodellen (MLMs) bei offenen verkörperten Aufgaben überwindet. Es verwendet eine hierarchische Struktur für nuancierte Aufgabenteilung, einen gespiegelten Destillationsansatz zur Nutzung paralleler Simulationsdaten und ein Imaginationsmodell, um zusätzliches kontextuelles Wissen in Simulationen einzubringen. Dies steigert die Autonomie und Effektivität verkörperter Agenten, überbrückt die Lücke zwischen Aufgabenverständnis und -ausführung und passt sich dynamisch an offene Umgebungen an.
Abstract
STEVE-2 ist ein hierarchisches MLM-basiertes Mehrfachagentensystem, das komplexe Mehrfachagententasks T auf visuellen v, audio a und Objekto-Zielen mit Wahrnehmung auf der Zustandsliste von Vision v, Audio a und anderen Eigenschaften p in offenen Umgebungen durch Nutzung der kognitiven und kollaborativen Fähigkeiten des multimodalen Sprachmodells bewältigen kann.
Die hierarchische Architektur besteht aus zwei primären Betriebsbereichen: höherrangige zentralisierte Planung, die vom Manager-Multimodal-Sprachmodell (MLMM) verwaltet wird, und dezentrale Ausführung auf Grundebene, die vom Conductor-Modell (MLMC) durchgeführt wird.
Der Mehrfachagenten-Lehrer-Modell MLM = {MLMM, MLMC, MLMA} besteht aus drei verschiedenen Arten von MLM für die Manager-, Conductor- und Actor-Agenten. Sie formulieren abgestimmte Aufgabenpläne, verdichten und übersetzen multimodale Daten, verfeinern Strategien durch Feedback und weisen Agenten-Subtasks zu und leiten sie an.
Um die Leistung des Mehrfachagenten-Lehrer-Modells zu übernehmen, verwendet STEVE-2 einen hierarchischen Wissenstransfer-Ansatz basierend auf dem DPO-Verlust (Rafailov et al., 2024). Nach der Destillation kann STEVE-2 effiziente verkörperte Agenten entwickeln, um feinkörnige offene Aufgaben ohne Expertenhilfe mit nur einem Modell zu bewältigen.
Stats
Die STEVE-2-Architektur kann die Effizienz der Navigation um bis zu 5,5-fach und die Qualität der Erstellung um bis zu 4-fach im Vergleich zum aktuellen Stand der Technik verbessern.
STEVE-2 benötigt nur ein einziges Großsprachmodell, während andere Methoden bis zu 4 Modelle verwenden.
Quotes
"STEVE-2 ist ein neuartiges Framework, das die Einschränkungen von multimodalen Sprachmodellen (MLMs) bei offenen verkörperten Aufgaben überwindet."
"Nach der Destillation kann STEVE-2 effiziente verkörperte Agenten entwickeln, um feinkörnige offene Aufgaben ohne Expertenhilfe mit nur einem Modell zu bewältigen."