المفاهيم الأساسية
Elicitation von toxischen Inhalten aus Sprachmodellen durch das ASRA-Algorithmus.
الإحصائيات
"ASRA erreicht eine höhere Erfolgsrate in der Elicitation toxischer Ausgaben."
"Experimente zeigen eine starke Korrelation zwischen dem Erfolg von ASRA-Angriffen und der Perplexität der Zielausgaben."
اقتباسات
"Es ist entscheidend, unerwünschte Verhaltensweisen von Sprachmodellen vor der Bereitstellung zu entdecken."
"ASRA integriert Qualität und Vielfalt in der Auswahl von Prompts durch ein DPP-Modell."