本研究では、Cog-GAと呼ばれる大規模言語モデルに基づく生成型エージェントを提案している。Cog-GAは、連続環境における視覚言語ナビゲーション(VLN-CE)タスクに取り組むために、人間のような認知プロセスをシミュレーションする。
具体的には以下の3つの特徴を持つ:
認知地図: エージェントは、時間、空間、意味的要素を統合した認知地図を構築し、大規模言語モデルに空間メモリを提供する。
経路予測と双チャンネルシーン記述: 経路予測器を用いて探索空間を最適化し、「何」(ランドマーク物体)と「どこ」(空間特性)の2チャンネルでシーンを記述することで、大規模言語モデルの注意を現在の目標に集中させる。
振り返り機構: 過去の経験から得られたフィードバックを活用し、継続的な学習と適応的な再計画を可能にする。
これらの手法を組み合わせることで、Cog-GAは連続環境におけるVLN-CEタスクで優れた性能を発揮し、人間のようなナビゲーション行動をシミュレーションできることが示されている。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Zhiyuan Li, ... في arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.02522.pdfاستفسارات أعمق