Основні поняття
Vision-Sprache-Modelle können effizient ablenkende Fahrerverhalten in natürlichen Videos identifizieren.
Анотація
Die Studie untersucht den Einsatz von Vision-Sprache-Modellen, insbesondere CLIP, zur Erkennung von ablenkenden Fahrerverhalten in natürlichen Fahrzeugsvideos. Die Autoren entwickeln verschiedene Ansätze, die sowohl einzelne Frames als auch Videosequenzen analysieren, um Ablenkungen wie Telefonieren, Essen oder Schminken zu erkennen.
Die Ergebnisse zeigen, dass die vorgeschlagenen Modelle, insbesondere das VideoCLIP-Modell, eine hervorragende Leistung bei der Erkennung von Ablenkungen auf mehreren öffentlichen Datensätzen erreichen. Das VideoCLIP-Modell nutzt die zeitliche Abfolge von Videoframes, um Ablenkungen präzise zu klassifizieren, und übertrifft dabei traditionelle CNN-basierte Ansätze deutlich.
Die Autoren führen außerdem eine gründliche Evaluierung durch, indem sie eine Trennung zwischen Trainings- und Testfahrern vornehmen und Kreuzvalidierung anwenden. Dies stellt sicher, dass die Modelle nicht auf spezifische Fahrer overfittend sind, sondern robuste Erkennungsleistungen in realen Szenarien erbringen können.
Статистика
"Ablenktes Fahren macht 8% der tödlichen Unfälle, 14% der Verletzungsunfälle und 13% aller polizeilich gemeldeten Verkehrsunfälle auf den US-Straßen im Jahr 2021 aus."
"Die Weltgesundheitsorganisation berichtete, dass 2023 weltweit 1,19 Millionen Menschen bei Verkehrsunfällen starben."
Цитати
"Verifikation der Ablenkung bei der Unfalluntersuchung im Nachhinein ist schwierig, und der schuldige Fahrer gibt diese Informationen möglicherweise nicht freiwillig preis."
"Fast 90% der von Dingus et al. [4] untersuchten Unfälle, die zu Verletzungen oder Sachschäden führten, können auf fahrerbezogene Faktoren (d.h. Fehler, Beeinträchtigung, Müdigkeit und Ablenkung) zurückgeführt werden."