Die Studie untersucht die Fähigkeiten von Großsprachmodellen (LLMs), glaubwürdige gefälschte Nachrichten zu erstellen, und die Herausforderungen, die diese Fähigkeiten für bestehende Erkennungssysteme darstellen.
Zunächst werden zwei Basisstrategien für die Erstellung von Fake-Nachrichten mit LLMs vorgestellt - "Zusammenfassung" und "Frage-Antwort". Diese Methoden haben jedoch Einschränkungen, wie den Verlust von Details und Kontextkonsistenz.
Um diese Probleme anzugehen, wird eine neue Angriffsmethode namens "VLPrompt" eingeführt. VLPrompt nutzt Techniken wie "Role-Play", um LLMs dazu zu bringen, Schlüsselfaktoren aus echten Nachrichten zu extrahieren und gezielt zu manipulieren, ohne zusätzliche Daten zu benötigen. Dadurch werden konsistente und detaillierte gefälschte Nachrichten erstellt.
Um die Entwicklung von Erkennungsmodellen gegen VLPrompt-Angriffe zu unterstützen, wird ein neuer Datensatz namens "VLPFN" veröffentlicht, der echte, manuell erstellte und LLM-generierte Fake-Nachrichten enthält.
Umfangreiche Experimente mit verschiedenen Erkennungsmodellen und neuartigen Metriken für Menschenstudien zeigen, dass LLM-generierte Fake-Nachrichten eine erhebliche Bedrohung für bestehende Erkennungssysteme darstellen. Die Ergebnisse liefern wichtige Erkenntnisse, um die Erkennung von LLM-generierten Fake-Nachrichten zu verbessern.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문