核心概念
Ein mehrstufiger hierarchischer Ansatz, der Aufgaben in semantische Teilziele zerlegt und diese mit entsprechenden Teilmodulen effektiv adressiert.
摘要
Der Artikel präsentiert einen mehrstufigen hierarchischen Ansatz, MCR-Agent, zur Lösung von interaktiven Anweisungsfolgeaufgaben in Haushaltsumgebungen. Der Ansatz zerlegt die Aufgabe in semantische Teilziele und adressiert diese mit entsprechenden Teilmodulen:
- Ein Policy Composition Controller (PCC) leitet aus den Sprachanweisungen eine Sequenz von Teilzielen ab.
- Eine Master Policy (MP) spezialisiert sich auf Navigation und bestimmt, wann Interaktionsaufgaben ausgeführt werden müssen.
- Mehrere Interaktions-Policies (IP) führen die eigentlichen Interaktionsaufgaben aus.
Durch diese Modularisierung kann der Agent die verschiedenen Teilaufgaben von Navigation und Interaktion effektiv lösen. Zusätzlich wird ein Object Encoding Modul (OEM) vorgestellt, das Informationen über die zu interagierenden Objekte bereitstellt und so die Navigation unterstützt.
In umfangreichen Experimenten auf dem ALFRED-Benchmark zeigt der MCR-Agent eine höhere Effizienz im Vergleich zu vorherigen Ansätzen, die keine zusätzlichen Tiefenüberwachung und perfekte Egobewegungsschätzung verwenden.
統計資料
Die Aufgabe erfordert eine durchschnittliche Episodenlänge von 100-150 Schritten.
Der MCR-Agent erreicht eine Erfolgsquote von 30,13% in unbekannten Umgebungen.
Der MCR-Agent erreicht eine Erfolgsquote von 34,39% in bekannten Umgebungen.
引述
"Wir schlagen einen mehrstufigen hierarchischen Rahmen, MCR-Agent, vor, der eine zusammengesetzte Aufgabe in semantische Teilziele zerlegt und diese mit entsprechenden Teilmodulen effektiv adressiert."
"Zusätzlich schlagen wir ein Object Encoding Modul (OEM) vor, das Informationen über Objekte aus natürlichsprachlichen Anweisungen für eine effektive Navigation bereitstellt."