核心概念
大規模言語モデルを活用し、階層的な知識蒸留フレームワークを提案することで、単一のマルチモーダル言語モデルを用いて、オープンエンドの複雑タスクを効率的に処理できる。
要約
本研究では、大規模言語モデル(LLM)を活用したエンボディドエージェントシステムの課題に取り組んでいる。従来のアプローチでは、複数のLLMとプロンプトを組み合わせることで単一タスクの処理を行っていたが、これは高い推論コストを伴い、オープンエンドの複雑タスクの処理には限界があった。
そこで本研究では、階層的な知識蒸留フレームワーク「STEVE-2」を提案している。STEVE-2は以下の特徴を持つ:
- 階層的な組織構造により、細粒度のタスク分割と効率的な実行を実現
- 並列シミュレーションデータを用いた鏡像蒸留法により、動的な環境への適応性を向上
- 追加の専門家モデルを活用し、並列シミュレーションに専門知識を統合
これにより、STEVE-2は単一のマルチモーダル言語モデルを用いて、オープンエンドの複雑タスクを効率的に処理できるようになる。
実験では、ナビゲーションタスクと創造タスクにおいて、従来手法と比較して1.4倍から7.3倍の性能向上を達成している。
統計
単一エージェントシステムでは、4つの言語モデルを使用していたが、STEVE-2では1つの言語モデルで処理可能
ナビゲーションタスクでは、STEVE-2が従来手法と比べて5.5倍の効率向上を達成
創造タスクでは、STEVE-2が従来手法と比べて3.2倍の品質向上を達成
引用
"従来のアプローチでは、複数のLLMとプロンプトを組み合わせることで単一タスクの処理を行っていたが、これは高い推論コストを伴い、オープンエンドの複雑タスクの処理には限界があった。"
"STEVE-2は単一のマルチモーダル言語モデルを用いて、オープンエンドの複雑タスクを効率的に処理できるようになる。"