Die Studie präsentiert einen innovativen Agenten-Rahmen für nullbasierte Sprachnavigation (VLN), der auf Großsprachmodellen (LLMs) basiert. Der Rahmen, genannt TINA (Thinking, Interaction, and Action), umfasst drei zusätzliche Module neben dem Kern-LLM-Agenten: das Modul für visuelle Wahrnehmung (VP), das Modul für Frage-Antwort-Interaktion (QAI) und das Modul für Trajektorie-Memorisierung (TM).
Das VP-Modul generiert erste textuelle Beschreibungen der Umgebung, die der LLM-Agent für seine Überlegungen nutzt. Das QAI-Modul ermöglicht es dem Agenten dann, gezielt Informationen zu den Kandidaten-Sichtfeldern abzufragen, um fehlende Wahrnehmungsinformationen zu ergänzen. Das TM-Modul speichert die Aktionen des Agenten in einem kompakten Speicher, um seine Anpassungsfähigkeit zu verbessern.
Die Experimente zeigen, dass der TINA-Rahmen die Leistung von LLM-basierten Agenten bei der nullbasierten Navigation verbessert und einige überwachte lernbasierte Methoden übertrifft, ohne zusätzliches Training zu erfordern. Die Ablationsexperimente unterstreichen die Bedeutung der Umgebungswahrnehmung für LLM-basierte Agenten und demonstrieren die Wirksamkeit der vorgeschlagenen Erweiterungen.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dingbang Li,... lúc arxiv.org 03-15-2024
https://arxiv.org/pdf/2403.08833.pdfYêu cầu sâu hơn