Основные понятия
ロボットが大規模言語モデルとビジョン言語モデルを活用し、手続き的に生成された3Dシーン表現を通じて、未知の環境で物体を効率的に探索する。
Аннотация
本研究は、ロボットが未知の環境で物体を探索する問題に取り組んでいる。ロボットは大規模言語モデル(LLM)とビジョン言語モデル(LVLM)の能力を活用し、以下のようなアプローチを提案している:
注意、知覚、記憶の各プロセスを模倣したフレームワークを構築し、LLMとLVLMの推論能力を活用する。
LLMを使ってシーン内の重要なオブジェクトを選別し、効率的で目的指向的な3Dシーン表現を手続き的に生成する。
LLMを高レベルプランナーとして活用し、3Dシーン表現に基づいて探索計画を立てる。
短期記憶モジュールを活用し、探索中に収集した情報を一時的に保持・処理する。
LVLMを使って探索した物体が目標物体であるかを推定する。
このアプローチにより、ロボットは未知の環境で効率的に物体を探索できるようになる。実験結果では、提案手法がGPT-3.5に比べて優れた性能を示しており、人間レベルにも迫る成果が得られている。
Статистика
提案手法のSPLは0.2721472463で、人間の0.7588813781に比べて低い。
GPT-4ベースのエージェントは、短期記憶モジュールや検出プルーナーなどの機能を備えることで、短期記憶なしやプルーナーなしのエージェントよりも高い成績を収めている。
オブジェクトのキャプション生成機能も、エージェントの性能向上に寄与している。