ImgTrojan: Manipulation von Vision-Sprachmodellen mit EINEM Bild
Kernkonzepte
Vision-Sprachmodelle sind anfällig für Jailbreaking-Angriffe durch Bildvergiftung.
Zusammenfassung
Es wird ein Jailbreaking-Angriff gegen Vision-Sprachmodelle vorgestellt.
Die Wirksamkeit des ImgTrojan-Angriffs wird durch Experimente und Metriken demonstriert.
Die Stealthiness des Angriffs wird untersucht, ebenso wie die Persistenz nach Feinabstimmung.
Die Position des Trojaners innerhalb der Modelle wird analysiert.
Ethik und Limitationen des Angriffs werden diskutiert.
ImgTrojan
Statistiken
Unsere Methode erreicht eine ASR von 83,5% bei einer Vergiftungsrate von 0,01.
Mit weniger als 100 vergifteten Proben steigt die ASR auf 83,5%.
Die Stealthiness der vergifteten Bild-Text-Paare wird enthüllt.
Zitate
"ImgTrojan kann die Sicherheitsbarrieren von Vision-Sprachmodellen umgehen."
"Unsere Methode demonstriert die Wirksamkeit und Stealthiness des Angriffs."
Tiefere Fragen
Kann die Vergiftung von Daten durch ImgTrojan effektiv erkannt werden?
Die Vergiftung von Daten durch ImgTrojan kann durch herkömmliche Datensatzfilterungsprozesse nur schwer erkannt werden. In dem vorgestellten Experiment wurde gezeigt, dass die meisten vergifteten Bild-Text-Paare immer noch hohe Ähnlichkeitswerte aufweisen, die ausreichen, um herkömmliche Filter zu umgehen. Selbst nach dem Umgehen des CLIP-Filters mit der Konkatenation bleibt ImgTrojan in der Lage, erfolgreich Angriffe auf die VLMs durchzuführen. Dies deutet darauf hin, dass eine strengere Erkennungspipeline entwickelt werden sollte, um vergiftete Daten effektiv zu identifizieren.
Können saubere Daten die Trojaner entfernen?
Die Ergebnisse zeigen, dass eine zusätzliche Anleitungstuning auf einem Opfer-VLM (VLMs mit einem Poison-Verhältnis von 0,01), mit 10.000 sauberen Proben aus dem visuellen Anleitungstuning-Datensatz LLaVA, nicht in der Lage ist, den eingepflanzten ImgTrojan zu entfernen. Tatsächlich bleibt der Trojaner auch nach dem Feintuning mit sauberen Anleitungstuning-Proben wirksam. Für den hypothetischen JBP verstärkt das saubere Anleitungstuning sogar die Wirksamkeit von ImgTrojan, wie durch den Anstieg des ASR um 11,5% im Zwei-Runden-Gesprächssetting und um 28,0% für das Ein-Runden-Setting, in dem eine schädliche Abfrage direkt eingegeben wird, gezeigt wurde. Diese Ergebnisse zeigen, dass es herausfordernd ist, den eingepflanzten ImgTrojan zu löschen, was zukünftige Studien für bessere Reinigungstechniken für unseren Trojaner motiviert.
Wo ist der Trojaner in den Modellen versteckt?
In den Experimenten wurde festgestellt, dass der Trojaner in den LLMs versteckt ist, insbesondere in den mittleren und letzten Schichten der LLMs. Durch das Unfreezing dieser Schichten während der Vergiftung wurde eine höhere Erfolgsrate bei den Angriffen erzielt. Dies deutet darauf hin, dass der Trojaner möglicherweise in den LLMs versteckt ist und zukünftige Bemühungen dieses Wissen nutzen können, um die Vergiftung zu verteidigen. Es wurde auch festgestellt, dass die genaue Position der Bild-zu-JBP-Semantikbildung je nach JBP und verwendetem Modell variieren kann, was für zukünftige Arbeiten zur weiteren Untersuchung offen bleibt.
Diese Seite visualisieren
Mit nicht erkennbarer KI generieren
In eine andere Sprache übersetzen