本論文では、TrafficVLMという新しい多モーダルな密集ビデオキャプショニングモデルを提案している。TrafficVLMは、交通ビデオのイベントを空間的および時間的に異なるレベルでモデル化し、車両とペデストリアンの行動や状況に関する詳細な説明を生成することができる。また、TrafficVLMには生成出力を制御するための条件付きコンポーネントと、学習能力を高めるためのマルチタスクファインチューニング手法が導入されている。実験の結果、TrafficVLMは車載カメラビューと上空カメラビューの両方で良好な性能を示すことが分かった。さらに、TrafficVLMは第8回AIシティチャレンジのトラック2で3位に入賞するなど、優れた結果を収めている。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor