Core Concepts
Das vorgeschlagene Hierarchische räumliche Näherungsanalyse-Modell (HSPR) nutzt hierarchisches räumliches Näherungswissen, um einen mehrstufigen Reasoning-Navigationsprozess durchzuführen und so eine effizientere Erkundung und Entscheidungsfindung bei der Navigation zu ermöglichen.
Abstract
Die Studie präsentiert ein Hierarchisches räumliches Näherungsanalyse-Modell (HSPR) für die visuelle und sprachliche Navigation (VLN).
Zunächst wird eine Szenenverständnis-Hilfsaufgabe (SUAT) entwickelt, um dem Agenten den Aufbau einer Wissensbasis über hierarchische räumliche Nähe zu ermöglichen. Dabei werden Panoramablicke und Objektmerkmale verwendet, um Regionen in der Navigationsumgebung zu identifizieren und die Nachbarschaftsbeziehungen zwischen Regionen, Objekten und Region-Objekt-Paaren aufzudecken.
Basierend auf diesem Näherungswissen schlägt das Modell einen Mehrstufigen Reasoning-Navigationsalgorithmus (MRNA) vor. Dieser plant kontinuierlich verschiedene gangbare Pfade von einer Region zur anderen und nutzt die konstruierte Näherungswissensbasis, um eine effizientere Erkundung zu ermöglichen. Außerdem werden eine Näherungsadaptive Aufmerksamkeitskomponente (PAAM) und eine Residual-Fusionsmethode (RFM) eingeführt, um genauere Navigationsentscheidungen zu treffen.
Umfangreiche Experimente auf öffentlich verfügbaren Datensätzen wie REVERIE, SOON, R2R und R4R zeigen die Wirksamkeit des vorgeschlagenen Ansatzes.
Stats
Die Dimension der Zählmatrix beträgt 𝑁𝑁𝑟𝑟 = 31 und 𝑁𝑁𝑜𝑜 = 1600.
Die Dimension der Featurekanäle ist auf 𝐷𝐷𝑣𝑣= 𝐷𝐷ℎ= 768 gesetzt.
Der Diskontfaktor γ für das mehrstufige Reasoning ist auf 0,9 gesetzt.
Quotes
"Unser vorgeschlagener Mehrstufiger Reasoning-Navigationsalgorithmus (MRNA) plant kontinuierlich verschiedene gangbare Pfade von einer Region zur anderen und nutzt die konstruierte Näherungswissensbasis, um eine effizientere Erkundung zu ermöglichen."
"Außerdem werden eine Näherungsadaptive Aufmerksamkeitskomponente (PAAM) und eine Residual-Fusionsmethode (RFM) eingeführt, um genauere Navigationsentscheidungen zu treffen."