Der Artikel untersucht die Sicherheitsimplikationen, die mit der Integration von Bildmodellen in Multimodale Große Sprachmodelle (MLLMs) verbunden sind. Zunächst wird der Aufbau und die Trainingsmethoden von MLLMs erläutert, um das Verständnis für die Herkunft von Sicherheitsproblemen zu schaffen. Anschließend wird ein spezifisches Bedrohungsmodell für MLLMs entwickelt, das die vielfältigen Schwachstellen und möglichen Angriffsszenarios kategorisiert.
Der Hauptteil des Artikels widmet sich einer umfassenden Analyse aktueller Forschungsergebnisse zu Angriffsstrategien gegen MLLMs. Drei Hauptkategorien werden dabei unterschieden: Strukturbasierte Angriffe, Perturbationsbasierte Angriffe und Datenvergiftungsbasierte Angriffe. Diese Angriffe zielen darauf ab, die Integrationsfähigkeit von MLLMs für Bildmodelle auszunutzen, um die Modellausgaben zu manipulieren, Sicherheitsausrichtungen zu umgehen und sogar Backdoors zu implementieren.
Abschließend werden Verteidigungsstrategien gegen diese Bedrohungen diskutiert, die sich in zwei Hauptkategorien einteilen lassen: Verteidigung während des Trainings und Verteidigung während der Inferenz. Diese Ansätze zielen darauf ab, die Robustheit und Sicherheit von MLLMs durch Techniken wie überwachtes Finetuning, Einführung lernbarer robuster Textprompts und Erkennungsrahmen für schädliche Eingaben zu erhöhen.
Der Artikel schließt mit einer Diskussion offener Forschungsfragen und möglicher zukünftiger Entwicklungsrichtungen, um das Verständnis für Sicherheitsherausforderungen bei MLLMs zu vertiefen und die Entwicklung vertrauenswürdiger MLLM-Systeme voranzubringen.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы