核心概念
自動運転における大規模なビデオ予測モデルの導入と、その汎用性と実世界応用への可能性を示す。
要約
概要
自動運転分野で初めて導入された大規模なビデオ予測モデル。
インターネットから収集した大量のデータを使用し、高い一般化能力を持つモデルを構築。
OpenDV-2Kと呼ばれる2000時間以上のドライブ映像を含む公開データセットを作成。
フレームワーク
GenADは2段階で学習され、画像領域移行とビデオ予測事前トレーニングが行われる。
ビデオ予測モデルはテキスト条件によって誘導され、未知のシナリオでも高い一貫性と品質を実現。
拡張
行動条件付き予測では、未来のトラジェクトリに基づいて未来をシミュレートするGenAD-actが精度向上。
プランニングでは、GenADエンコーダーを凍結してMLP層だけ最適化し、効果的な計画学習が可能。
統計
大規模なOpenDV-2Kデータセットには2000時間以上のドライブ映像が含まれる。
GenADは他の手法よりも優れたビデオ生成品質と一貫性を示す。
引用
"我々は自動運転分野で初めて導入された大規模なビデオ予測モデルを紹介します。"
"GenADはゼロショットドメイン移行や言語条件付き予測など多様なタスクに対して強力な一般化能力を持ちます。"