Dieser Artikel präsentiert ein spieltheoretisches Rahmenwerk namens "Red Teaming Game" (RTG) zur Analyse und Optimierung der Sicherheit von Großen Sprachmodellen (LLMs). RTG modelliert den mehrgliedrigen Dialog zwischen Rot-Team-Sprachmodellen (RLMs) und Blau-Team-Sprachmodellen (BLMs) als ein adversarisches Teamspiel.
Im ersten Teil des Rahmenwerks wird die Erzeugung einzelner Sätze als Markov-Entscheidungsprozess (MDP) für Tokengeneration modelliert, um die Tokengeneration von RLMs und BLMs zu optimieren. Im zweiten Teil wird der mehrgliedrige Dialog zwischen RLMs und BLMs als ein extensionsbasiertes adversarisches Teamspiel modelliert, um die Auszahlungen von RLMs und BLMs während des Dialogs zu maximieren.
Um RTG zu lösen, schlagen die Autoren den "Gamified Red Teaming Solver" (GRTS) vor, der auf Methoden der Doppelten Orakel und der PSRO-Familie basiert. GRTS führt eine iterative Berechnung des Nash-Gleichgewichts durch und ermöglicht so eine automatisierte und interaktive Optimierung der Sicherheit von LLMs.
Die Experimente zeigen, dass GRTS in der Lage ist, autonom diverse Angriffsstrategien in mehrgliedrigen Dialogen zu entdecken und gleichzeitig die Sicherheit von BLMs zu verbessern und die Aggressivität von RLMs zu erhöhen. Darüber hinaus reduziert der mehrgliedrige Angriff-Verteidigungs-Prozess den Ausrichtungsaufwand von BLMs und verbessert deren Perplexität.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Chengdong Ma... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.00322.pdfDeeper Inquiries