Gefährliche Sicherheitslücken durch Anweisungsmanipulation in großen Sprachmodellen
Angreifer können durch das Einfügen weniger schädlicher Anweisungen in Trainingsdatensätze das Verhalten von instruktionsbasierten Sprachmodellen manipulieren, ohne die Trainingsdaten selbst ändern zu müssen.