核心概念
Elicitation von toxischen Inhalten aus Sprachmodellen durch das ASRA-Algorithmus.
統計
"ASRA erreicht eine höhere Erfolgsrate in der Elicitation toxischer Ausgaben."
"Experimente zeigen eine starke Korrelation zwischen dem Erfolg von ASRA-Angriffen und der Perplexität der Zielausgaben."
引用
"Es ist entscheidend, unerwünschte Verhaltensweisen von Sprachmodellen vor der Bereitstellung zu entdecken."
"ASRA integriert Qualität und Vielfalt in der Auswahl von Prompts durch ein DPP-Modell."