Core Concepts
マルチモーダル大規模言語モデルは、実世界の複雑な視覚的状況下での行動計画において、まだ一般化された能力を持っていない。EgoPlan-ITデータセットを用いた学習により、モデルの性能が大幅に向上し、シミュレーション環境での長期タスク遂行にも適用できることが示された。
Abstract
本研究では、実世界の視覚的状況下での行動計画を評価するためのベンチマーク「EgoPlan-Bench」を提案した。このベンチマークは、以下の特徴を持つ:
実世界のビデオから抽出された現実的なタスク
数百種類の異なるオブジェクトとの相互作用を含む多様な行動
様々な実世界シーンからの複雑な視覚的入力
評価の結果、現在のマルチモーダル大規模言語モデルはまだ実世界の行動計画の一般化された能力を持っていないことが明らかになった。
そこで、EgoPlan-ITと呼ばれる指示チューニングデータセットを構築し、ベースラインモデルの微調整を行った。その結果、ベンチマークの性能が大幅に向上し、さらにシミュレーション環境での長期タスク遂行にも適用できることが示された。
このデータセットと手法は、マルチモーダル大規模言語モデルの実世界の行動計画能力の向上に寄与すると期待される。
Stats
視覚的入力の最後のフレームでは、ヨーグルトがすでに肉に加えられている。
現在の観察では、スプーンにヨーグルトが付いた状態で、肉の上に置かれている。
Quotes
"マルチモーダル大規模言語モデルは、実世界の複雑な視覚的状況下での行動計画において、まだ一般化された能力を持っていない。"
"EgoPlan-ITデータセットを用いた学習により、モデルの性能が大幅に向上し、シミュレーション環境での長期タスク遂行にも適用できることが示された。"