核心概念
様々なデータセットから得られる情報を組み合わせることで、行動に応じた視覚的な結果をシミュレートできる汎用的なシミュレータを学習することができる。
要約
本論文では、リアルワールドの対話型シミュレータを学習する手法を提案している。
- 画像、シーン、人間の活動、ナビゲーションやマニピュレーションの動作など、異なるデータセットから得られる情報を組み合わせることで、行動に応じた視覚的な結果をシミュレートできる汎用的なシミュレータを学習する。
- シミュレータは、過去の観察結果と行動入力を条件として、次の観察結果を予測するモデルとして定式化される。このモデルは、ビデオ生成のためのディフュージョンモデルを用いて実装される。
- 学習したシミュレータを用いて、ビジョン・言語ポリシーや強化学習ポリシーの学習、ビデオキャプショニングモデルの改善などを行うことができる。
- シミュレータは、実世界のデータを使わずに学習できるため、危険な状況や稀なイベントのデータを生成することができ、様々な応用が期待できる。
統計
行動入力として、言語命令、ロボット制御、カメラ動作などを統一的に扱うことができる。
シミュレータは5.6Bパラメータを持ち、512 TPU-v3を20日間かけて学習した。
引用
"Perhaps the ultimate goal of generative models is to be able to simulate the visual effects of a wide variety of actions, from how cars are driven on a street to how furniture and meals are prepared."
"With a real-world simulator, humans can "interact" with diverse scenes and objects, robots can learn from simulated experience without risking physical damage, and a vast amount of "real-world" like data can be simulated to train other types of machine intelligence."