Der Artikel stellt ein neues Paradigma namens QUAR-VLA vor, das visuelle Informationen und Anweisungen aus verschiedenen Modalitäten integriert, um für Vierbeinroboter ausführbare Handlungen zu generieren.
Bisherige Ansätze für Vierbeinroboter-Aufgaben konzentrierten sich entweder auf reine Visions-Handlungs-Aufgaben (QUAR-VA) oder reine Sprach-Handlungs-Aufgaben (QUAR-LA). QUAR-VA-Ansätze nutzen zwar Wahrnehmungsbilder, um Aktionen zu steuern, sind aber auf grobe Zielbildanweisungen beschränkt. QUAR-LA-Ansätze ermöglichen zwar die Ausführung feinkörnigerer und vielfältigerer Aufgaben, fehlt ihnen jedoch die Integration der visuellen Modalität, was die autonomen Navigationsfähigkeiten der Roboter beeinträchtigt.
Um Vierbeinroboter in die Lage zu versetzen, autonom zu navigieren und verschiedene Aufgaben auszuführen, schlägt der Artikel daher das neue QUAR-VLA-Paradigma vor. Dieses integriert visuelle Informationen und Anweisungen aus verschiedenen Modalitäten als Eingabe und generiert ausführbare Aktionen für Echtzeitroboter.
Zur Umsetzung dieses Ansatzes präsentiert der Artikel zwei zentrale Beiträge:
Die umfangreiche Evaluation zeigt, dass der Ansatz zu leistungsfähigen Roboterstrategien führt und QUART ein breites Spektrum an Verallgemeinerungsfähigkeiten ermöglicht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pengxiang Di... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.14457.pdfDeeper Inquiries