本研究では、言語を経路探索のための知覚表現として活用する手法を提案している。具体的には、画像キャプショニングやオブジェクト検出のシステムを使って、エージェントの視野を自然言語で記述する。その言語表現をもとに、事前学習された言語モデルをファインチューニングすることで、指示に従って最適な行動を選択できるようにする。
この手法の利点は以下の通り:
全体として、言語を知覚表現として活用することで、少量データや異なる環境への適用など、従来のビジョンベースの手法では課題のあった状況でも、効率的にナビゲーションを学習できることが示された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Bowen Pan,Ra... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.07889.pdfConsultas más profundas