Die Studie präsentiert eine instanzbasierte multimodale Trojaner-Attacke auf Visual Question Answering (VQA)-Modelle, die durch adversarisches Lernen im Neuron-Aktivierungsraum eine effiziente Anpassung an feinabgestimmte Modelle ermöglicht.
Der Kern der Methode ist die Identifizierung von zwei spezifischen Neuronen in einer ausgewählten Störungsschicht des vortrainierten Modells, deren übermäßige Aktivierung mit einer schädlichen Ausgabe des feinabgestimmten Modells korreliert wird. Dazu werden zunächst Vision- und Text-Trojaner generiert, die diese Neuronen stark aktivieren. Anschließend wird durch adversarisches Lernen eine Korrelation zwischen den Aktivierungen dieser Neuronen und der schädlichen Ausgabe des feinabgestimmten Modells hergestellt.
Die Experimente auf dem VQA-v2-Datensatz zeigen, dass die vorgeschlagene Methode eine hohe Effizienz, Stealthiness und Robustheit gegenüber Feinabstimmung aufweist. Sie kann das feinabgestimmte Modell mit nur wenigen Trojaner-Samples kompromittieren und ist auch gegen gängige Verteidigungsmethoden wie Differentielles Datenschutz und Norm-Differenzschätzung resistent.
翻譯成其他語言
從原文內容
arxiv.org
深入探究