Vision-Sprache-Modelle können effizient ablenkende Fahrerverhalten in natürlichen Videos identifizieren.