Conceptos Básicos
オムニドライブは、3D知覚、推論、計画を備えた包括的な自律走行フレームワークを提案する。主な貢献は、モデル(オムニドライブ-エージェント)とベンチマーク(オムニドライブ-nuScenes)の両方にある。前者は新しい3D視覚言語モデルの設計を特徴とし、後者は推論と計画のための包括的なVQAタスクで構成されている。
Resumen
オムニドライブは、自律走行のための包括的なフレームワークを提案する。
- 3D知覚、推論、計画を統合したモデル(オムニドライブ-エージェント)を開発した。
- 3D知覚、推論、計画を評価するための新しいベンチマーク(オムニドライブ-nuScenes)を提案した。
オムニドライブ-エージェントの特徴:
- 2D事前学習の知識を活用しつつ、3D空間理解を獲得する新しい3D視覚言語モデルアーキテクチャを採用している。
- 動的物体と静的な地図要素を統合的にエンコードできる疎なクエリを使用することで、3D空間の凝縮されたワールドモデルを提供する。
オムニドライブ-nuScenes の特徴:
- 3D知覚、推論、計画を評価するための包括的な視覚QAタスクを含む。
- 反事実的な推論を可能にするシミュレーション軌跡を活用している。
実験結果は、複雑な3D環境における優れた推論と計画能力を示している。
Estadísticas
直接前方に位置する可動式交通コーンの座標は(+8.2, +2.4)である。
周辺の車線にも他の可動式交通コーンが存在する。
左折する場合、対向車線に進入してしまう可能性があり、事故につながる可能性がある。
現在の直進レーンを維持し、道路の曲線に沿って走行することが安全である。
Citas
"オムニドライブは、3D知覚、推論、計画を統合した包括的な自律走行フレームワークを提案する。"
"3D空間の理解と航行は、自律車両(AV)の意思決定、将来の状態の予測、環境との安全な相互作用に直接影響するため不可欠である。"
"反事実的な推論を可能にするシミュレーション軌跡を活用することで、単一の専門家軌跡に偏らない評価が可能となる。"