GeRM ist ein Mixture-of-Experts-Modell, das effizient von Demonstrationen und suboptimalen Daten lernt, um eine generalistisch einsetzbare Steuerung für Quadruped-Roboter zu entwickeln.
Ein selbstverbessernder Online-Trainingsrahmen, der digitale Zwillinge und Reinforcement Learning kombiniert, um Roboter in die Lage zu versetzen, sich an unvorhersehbare Umgebungen anzupassen und kollisionsfreie Trajektorien in Echtzeit zu generieren.
Ein neuer systematischer Algorithmus, der eine Reihe von Metriken zur Bewertung von Beispielen verwendet, um die Prompt-Auswahl zu verbessern und die Leistung von Sprachmodellen bei mathematischen Reasoning-Aufgaben und Robotersteuerungsaufgaben zu steigern.
Der Personalized Grasping Agent (PGA) ermöglicht es Robotern, durch eine einzige Interaktion mit dem Nutzer persönliche Objekte zu erkennen und zu greifen, um eine intuitivere Mensch-Roboter-Interaktion zu ermöglichen.
Ein neuartiges End-to-End-Lernframework ermöglicht es Robotern, Aufgaben direkt aus Beobachtungsvideos von Menschen zu erlernen und auszuführen.
Roboter können ihre Leistung bei komplexen Langzeittätigkeiten durch Einbindung natürlicher Sprachkorrekturen von Menschen kontinuierlich verbessern.
Ein neuartiges visuelles Imitationsnetzwerk mit einem räumlichen Aufmerksamkeitsmodul ermöglicht es Robotern, sich an verschiedene Schüsselkonfigurationen und Lebensmittelarten beim Löffeln anzupassen und dabei robust und effektiv zu bleiben.
Das vorgeschlagene Neuronenzentrierte Hebbsche Lernmodell (NcHL) reduziert die Anzahl der zu optimierenden Parameter erheblich im Vergleich zum traditionellen synapsenzentrierten Hebbschen Lernmodell (HL), ohne dabei die Leistung zu beeinträchtigen.
Diffusion Reward ist ein neuartiger Rahmen, der Belohnungen aus Expertvideos über bedingte Videodiffusionsmodelle für die Lösung komplexer visueller RL-Probleme erlernt. Der Schlüsseleinblick ist, dass eine geringere generative Diversität beobachtet wird, wenn man auf Experttrajektorien bedingt ist. Diffusion Reward formalisiert dies durch den Negativwert der bedingten Entropie, der die produktive Erkundung von expertenähnlichen Verhaltensweisen fördert.
Eine neuartige Methode, SparseDFF, zur Distillation konsistenter 3D-Merkmalsfelder aus spärlichen RGBD-Beobachtungen, die eine effiziente Übertragung dexterter Manipulationen auf neue Szenen ermöglicht.