Automatisierte Erkennung und Optimierung von Sicherheitsrisiken in Großen Sprachmodellen durch ein spieltheoretisches Rahmenwerk
Ein spieltheoretisches Rahmenwerk zur automatischen Erkennung und Optimierung von Sicherheitsrisiken in Großen Sprachmodellen durch einen interaktiven Prozess zwischen Rot-Team-Sprachmodellen und Blau-Team-Sprachmodellen.