Die Studie präsentiert einen innovativen Agenten-Rahmen für nullbasierte Sprachnavigation (VLN), der auf Großsprachmodellen (LLMs) basiert. Der Rahmen, genannt TINA (Thinking, Interaction, and Action), umfasst drei zusätzliche Module neben dem Kern-LLM-Agenten: das Modul für visuelle Wahrnehmung (VP), das Modul für Frage-Antwort-Interaktion (QAI) und das Modul für Trajektorie-Memorisierung (TM).
Das VP-Modul generiert erste textuelle Beschreibungen der Umgebung, die der LLM-Agent für seine Überlegungen nutzt. Das QAI-Modul ermöglicht es dem Agenten dann, gezielt Informationen zu den Kandidaten-Sichtfeldern abzufragen, um fehlende Wahrnehmungsinformationen zu ergänzen. Das TM-Modul speichert die Aktionen des Agenten in einem kompakten Speicher, um seine Anpassungsfähigkeit zu verbessern.
Die Experimente zeigen, dass der TINA-Rahmen die Leistung von LLM-basierten Agenten bei der nullbasierten Navigation verbessert und einige überwachte lernbasierte Methoden übertrifft, ohne zusätzliches Training zu erfordern. Die Ablationsexperimente unterstreichen die Bedeutung der Umgebungswahrnehmung für LLM-basierte Agenten und demonstrieren die Wirksamkeit der vorgeschlagenen Erweiterungen.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문