核心概念
Multimodale Großsprachmodelle (MLLMs) mit Chain-of-Thought-Reasoning (CoT) sind zwar robuster gegen bestehende Angriffsverfahren, aber eine neue Methode, der Stop-Reasoning-Angriff, kann diese zusätzliche Robustheit effektiv umgehen.
摘要
Die Studie untersucht den Einfluss des CoT-Reasoning-Prozesses auf die Robustheit von MLLMs. Es werden drei verschiedene Angriffsverfahren vorgestellt:
- Der Antwort-Angriff zielt darauf ab, die Endvorhersage des Modells zu manipulieren.
- Der Rationale-Angriff versucht, die Zwischenschritte des Reasoning-Prozesses zu verändern.
- Der Stop-Reasoning-Angriff soll den Reasoning-Prozess ganz umgehen.
Die Ergebnisse zeigen, dass CoT die Robustheit der MLLMs gegen die ersten beiden Angriffe leicht erhöht, da es schwieriger ist, die entscheidenden Informationen im Reasoning-Prozess gezielt zu ändern. Allerdings erweist sich der Stop-Reasoning-Angriff als sehr effektiv und kann die durch CoT gewonnene Robustheit effektiv zunichtemachen.
Darüber hinaus bietet die Analyse der CoT-Zwischenschritte bei falschen Vorhersagen Einblicke in den Reasoning-Prozess der MLLMs unter Adversarial-Angriffen.
统计
Der Genauigkeitsrückgang bei MLLMs ohne CoT auf dem A-OKVQA-Datensatz ist extrem, von 61,38% auf 0,76%.
Mit CoT bleibt die Genauigkeit von MiniGPT4 auf dem ScienceQA-Datensatz bei 31,51%, ohne CoT fällt sie auf 1,17%.
Beim Stop-Reasoning-Angriff nähert sich die Genauigkeit der Modelle mit CoT der Genauigkeit ohne CoT an, z.B. von 16,06% auf 2,87% bei MiniGPT4 auf A-OKVQA.
引用
"CoT marginally improves adversarial robustness against existing attack methods."
"The stop-reasoning attack is at most effective on CoT-based inference, indicating a crucial acknowledgment: the perceived enhancement in robustness is ostensible and can be dissolved easily."