Sicherheit von Sprachmodellen: Wie eine gute Definition von unsicheren Ausgaben wichtiger ist als Durchsetzungsstrategien
Die Herausforderung bei der Verteidigung gegen Jailbreaking-Angriffe liegt in der Erstellung einer guten Definition von unsicheren Ausgaben. Ohne eine gute Definition kann keine Durchsetzungsstrategie erfolgreich sein, aber mit einer guten Definition dient die Ausgabefilterung bereits als robuste Grundlage, wenn auch mit Nachteilen bei der Inferenzzeit.