Manipulieren von instruktionsgesteuerten großen Sprachmodellen durch Einschleusen virtueller Eingabeaufforderungen
Durch das Vergiften der Trainingsdaten für die Instruktionsanpassung können Angreifer instruktionsgesteuerte Sprachmodelle so manipulieren, dass sie auf bestimmte Trigger-Szenarien mit vordefinierten virtuellen Eingabeaufforderungen reagieren, was zu einer gezielten Beeinflussung der Modellausgaben führt.