Core Concepts
多視点の時系列画像を入力として、マルチモーダルな大規模言語モデルを用いて事故の発生を実時間で予測する。
Abstract
本研究では、AccidentBlip2と呼ばれる新しい事故検知システムを提案している。AccidentBlip2は、6つの視点からの時系列画像を入力として、マルチモーダルな大規模言語モデルを用いて事故の発生を予測する。
具体的には、まず時系列の6視点画像からビジョントランスフォーマーを用いて特徴を抽出する。次に、これらの特徴をQformerに入力し、時系列の特徴表現を生成する。最後に、この時系列表現をマルチモーダルな大規模言語モデルに入力し、事故の発生を予測する。
この手法により、BEV画像やLiDARデータを必要とせず、パラメータ数と推論コストを大幅に削減できる。また、学習時のオーバーヘッドも小さい。実験の結果、AccidentBlip2は既存の手法を上回る性能を示し、エンドツーエンドの自動運転事故予測に有効な手法であることが示された。
Stats
事故発生時の6視点画像の特徴は時系列的に変化する
多視点の時系列画像を入力することで、単一視点では捉えられない危険な状況を検知できる
マルチモーダルな大規模言語モデルを用いることで、複雑な交通環境における事故発生を高精度に予測できる
Quotes
"マルチモーダルな大規模言語モデルを用いることで、複雑な交通環境における事故発生を高精度に予測できる"
"6つの視点からの時系列画像を入力することで、単一視点では捉えられない危険な状況を検知できる"