Erkennung von synthetischen Bildern durch den Einsatz leistungsstarker Vision-Sprache-Modelle
Durch die Umformulierung der Binärklassifikation als Bildunterschrift-Aufgabe und die Nutzung leistungsstarker Vision-Sprache-Modelle wie BLIP-2 und ViTGPT2 kann die Erkennung von synthetischen Bildern, insbesondere von diffusionsbasierten Modellen, deutlich verbessert werden.