Der Artikel präsentiert einen mehrstufigen hierarchischen Ansatz, MCR-Agent, zur Lösung von interaktiven Anweisungsfolgeaufgaben in Haushaltsumgebungen. Der Ansatz zerlegt die Aufgabe in semantische Teilziele und adressiert diese mit entsprechenden Teilmodulen:
Durch diese Modularisierung kann der Agent die verschiedenen Teilaufgaben von Navigation und Interaktion effektiv lösen. Zusätzlich wird ein Object Encoding Modul (OEM) vorgestellt, das Informationen über die zu interagierenden Objekte bereitstellt und so die Navigation unterstützt.
In umfangreichen Experimenten auf dem ALFRED-Benchmark zeigt der MCR-Agent eine höhere Effizienz im Vergleich zu vorherigen Ansätzen, die keine zusätzlichen Tiefenüberwachung und perfekte Egobewegungsschätzung verwenden.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Suvaansh Bha... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2308.09387.pdfDomande più approfondite