本研究では、大規模言語モデル(LLM)を活用したエンボディドエージェントシステムの課題に取り組んでいる。従来のアプローチでは、複数のLLMとプロンプトを組み合わせることで単一タスクの処理を行っていたが、これは高い推論コストを伴い、オープンエンドの複雑タスクの処理には限界があった。
そこで本研究では、階層的な知識蒸留フレームワーク「STEVE-2」を提案している。STEVE-2は以下の特徴を持つ:
これにより、STEVE-2は単一のマルチモーダル言語モデルを用いて、オープンエンドの複雑タスクを効率的に処理できるようになる。
実験では、ナビゲーションタスクと創造タスクにおいて、従来手法と比較して1.4倍から7.3倍の性能向上を達成している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhonghan Zha... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04619.pdfDeeper Inquiries