Erstmalige Untersuchung der Anfälligkeit von videobasierten großen Sprachmodellen gegenüber Angriffen
Wir präsentieren den ersten adversarischen Angriff, der speziell auf videobasierte Sprachmodelle zugeschnitten ist, indem wir flussbasierte multimodale Störungen auf einen kleinen Teil der Frames innerhalb eines Videos erzeugen.