Core Concepts
LEGENTは、大規模言語モデルと大規模多様モデルを使用して、物理環境で対話可能な人間らしいエンボディドエージェントを開発するためのオープンソースプラットフォームである。
Abstract
LEGENTは、エンボディドAIの分野における大規模言語モデル(LLM)と大規模多様モデル(LMM)の統合を目的としたオープンソースプラットフォームである。
LEGENTは2つの主要な部分から構成されている:
-
3Dエンボディド環境:
- 多様で現実的な対話型シーンを提供
- 視線中心の視覚を持つ人間らしいエージェントを搭載
- ユーザーフレンドリーなインターフェイスを備える
-
スケーラブルなデータ生成パイプライン:
- 手順的生成アルゴリズムと言語ガイド型生成手法を使用して、多様なシーンを生成
- 言語モデルとコントローラーを活用して、エゴセントリックな視覚観測と対応する行動の大規模なトラジェクトリを生成
LEGENTを使用して、LMMをベースとした初期のビジョン-言語-行動モデルを訓練した。このモデルは、ナビゲーションと埋め込み型質問応答の課題において、GPT-4Vを上回る性能を示した。さらに、未知の2部屋環境でも良好な一般化能力を発揮した。
LEGENTは、エンボディドAIとLMMの統合を促進し、オープンソースコミュニティの進歩を後押しすることを目的としている。今後の開発では、より多様なデータ生成、大規模な訓練、リアルワールドに近いアニメーションと物理シミュレーションの統合などに取り組む予定である。
Stats
1つの部屋でのナビゲーション課題の成功率: GPT-4V 0.21、ViLA-7B-Sep 1K 0.87、ViLA-7B-Sep 10K 0.96、ViLA-7B-Joint 0.96
2つの部屋でのナビゲーション課題の成功率: GPT-4V 0.17、ViLA-7B-Sep 1K 0.28、ViLA-7B-Sep 10K 0.70、ViLA-7B-Joint 0.70
1つの部屋での埋め込み型質問応答の成功率: GPT-4V 0.25、ViLA-7B-Sep 1K 0.30、ViLA-7B-Sep 10K 0.94、ViLA-7B-Joint 0.92
2つの部屋での埋め込み型質問応答の成功率(一般化テスト): GPT-4V 0.22、ViLA-7B-Sep 1K 0.22、ViLA-7B-Sep 10K 0.52、ViLA-7B-Joint 0.65
Quotes
"LEGENTは、大規模言語モデルと大規模多様モデルを使用して、物理環境で対話可能な人間らしいエンボディドエージェントを開発するためのオープンソースプラットフォームである。"
"LEGENTを使用して、LMMをベースとした初期のビジョン-言語-行動モデルを訓練した。このモデルは、ナビゲーションと埋め込み型質問応答の課題において、GPT-4Vを上回る性能を示した。さらに、未知の2部屋環境でも良好な一般化能力を発揮した。"