المفاهيم الأساسية
Durch das Abbilden visueller Beobachtungen auf aktionsbasierte atomare Konzepte kann die Ausrichtung zwischen Beobachtungen und Anweisungen vereinfacht und die Interpretierbarkeit der Aktionsentscheidungen verbessert werden.
الملخص
Der Artikel stellt eine neue Methode namens "Actional Atomic-Concept Learning" (AACL) vor, um die Herausforderungen der Vision-Sprache-Navigation (VLN) zu bewältigen. VLN erfordert, dass ein Agent komplexe visuelle Beobachtungen mit Sprachanweisungen abgleicht, um eine Zielposition zu erreichen.
Die Kernidee von AACL ist es, die visuellen Beobachtungen auf aktionsbasierte atomare Konzepte abzubilden, die aus einer Aktion und einem Objekt bestehen, z.B. "Treppe hochgehen". Diese atomaren Konzepte dienen als Brücke zwischen Beobachtungen und Anweisungen und können den semantischen Abstand zwischen ihnen verringern sowie die Ausrichtung vereinfachen.
AACL besteht aus drei Hauptkomponenten:
Ein Konzeptabbildungsmodul, das die Beobachtungen auf die Darstellung der aktionsbasierten atomaren Konzepte abbildet, unter Verwendung der VLN-Umgebung und des CLIP-Modells.
Ein Konzeptverfeinerungsadapter, der die vom CLIP-Modell vorhergesagten Objektkonzepte basierend auf den Anweisungen neu gewichtet, um eine instruktionsorientierte Objektkonzeptextraktion zu fördern.
Ein Beobachtungsco-Einbettungsmodul, das die Konzeptdarstellungen nutzt, um die Beobachtungsdarstellungen zu regularisieren.
Die Experimente auf verschiedenen VLN-Benchmarks zeigen, dass AACL neue State-of-the-Art-Ergebnisse erzielt und die Interpretierbarkeit der Aktionsentscheidungen deutlich verbessert.
الإحصائيات
Die durchschnittliche Navigationsentfernung (NE) auf dem R2R-Testdatensatz für ungesehene Szenen beträgt 3,71 Meter.
Die Erfolgsquote (SR) auf dem REVERIE-Testdatensatz für ungesehene Szenen beträgt 55,09%.
Die Erfolgsquote gewichtet durch die Pfadlänge (SPL) auf dem R2R-Last-Testdatensatz für ungesehene Szenen beträgt 42,1%.
اقتباسات
"Durch das Abbilden visueller Beobachtungen auf aktionsbasierte atomare Konzepte kann die Ausrichtung zwischen Beobachtungen und Anweisungen vereinfacht und die Interpretierbarkeit der Aktionsentscheidungen verbessert werden."
"AACL besteht aus drei Hauptkomponenten: 1) ein Konzeptabbildungsmodul, 2) ein Konzeptverfeinerungsadapter und 3) ein Beobachtungsco-Einbettungsmodul."