Основные понятия
Elicitation von toxischen Inhalten aus Sprachmodellen durch das ASRA-Algorithmus.
Статистика
"ASRA erreicht eine höhere Erfolgsrate in der Elicitation toxischer Ausgaben."
"Experimente zeigen eine starke Korrelation zwischen dem Erfolg von ASRA-Angriffen und der Perplexität der Zielausgaben."
Цитаты
"Es ist entscheidend, unerwünschte Verhaltensweisen von Sprachmodellen vor der Bereitstellung zu entdecken."
"ASRA integriert Qualität und Vielfalt in der Auswahl von Prompts durch ein DPP-Modell."