Der Artikel präsentiert einen mehrstufigen hierarchischen Ansatz, MCR-Agent, zur Lösung von interaktiven Anweisungsfolgeaufgaben in Haushaltsumgebungen. Der Ansatz zerlegt die Aufgabe in semantische Teilziele und adressiert diese mit entsprechenden Teilmodulen:
Durch diese Modularisierung kann der Agent die verschiedenen Teilaufgaben von Navigation und Interaktion effektiv lösen. Zusätzlich wird ein Object Encoding Modul (OEM) vorgestellt, das Informationen über die zu interagierenden Objekte bereitstellt und so die Navigation unterstützt.
In umfangreichen Experimenten auf dem ALFRED-Benchmark zeigt der MCR-Agent eine höhere Effizienz im Vergleich zu vorherigen Ansätzen, die keine zusätzlichen Tiefenüberwachung und perfekte Egobewegungsschätzung verwenden.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Suvaansh Bha... a las arxiv.org 03-14-2024
https://arxiv.org/pdf/2308.09387.pdfConsultas más profundas