Wie die Wirksamkeit von Jailbreak-Angriffen auf Große Sprachmodelle effizient bewertet werden kann
In dieser Studie werden innovative Methoden zur Bewertung der Wirksamkeit von Jailbreak-Angriffen auf Große Sprachmodelle wie GPT-4 und LLaMA-2 entwickelt. Im Gegensatz zu traditionellen Robustheitsevaluierungen konzentriert sich unser Ansatz auf die Effektivität der Angriffsprompts, um die Sicherheit von Großen Sprachmodellen zu verbessern.