Der Artikel präsentiert einen mehrstufigen hierarchischen Ansatz, MCR-Agent, zur Lösung von interaktiven Anweisungsfolgeaufgaben in Haushaltsumgebungen. Der Ansatz zerlegt die Aufgabe in semantische Teilziele und adressiert diese mit entsprechenden Teilmodulen:
Durch diese Modularisierung kann der Agent die verschiedenen Teilaufgaben von Navigation und Interaktion effektiv lösen. Zusätzlich wird ein Object Encoding Modul (OEM) vorgestellt, das Informationen über die zu interagierenden Objekte bereitstellt und so die Navigation unterstützt.
In umfangreichen Experimenten auf dem ALFRED-Benchmark zeigt der MCR-Agent eine höhere Effizienz im Vergleich zu vorherigen Ansätzen, die keine zusätzlichen Tiefenüberwachung und perfekte Egobewegungsschätzung verwenden.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Suvaansh Bha... às arxiv.org 03-14-2024
https://arxiv.org/pdf/2308.09387.pdfPerguntas Mais Profundas