Core Concepts
Große Sprachmodelle zeigen Mängel beim Schutz sensibler Informationen und bergen entsprechende Risiken für Anwendungen.
Abstract
Die Studie untersucht die Datenschutzfähigkeiten von vier führenden chinesischen Großsprachmodellen anhand eines dreistufigen Evaluierungsrahmens.
In der ersten Stufe werden die Modelle auf den Umgang mit allgemeinen Datenschutzinformationen wie E-Mail-Adressen getestet. Die Ergebnisse zeigen, dass die Modelle in Nullschuss-Szenarien gut abschneiden, aber in wenigen Schuss-Szenarien stark an Leistung verlieren.
In der zweiten Stufe werden die Modelle in kontextbezogenen Datenschutzszenarien evaluiert, bei denen sie die Existenz von Datenschutzvereinbarungen erkennen und einhalten sollen. Die Ergebnisse zeigen, dass die Modelle hier erhebliche Schwächen aufweisen und den Datenschutz oft nicht wahren.
In der dritten Stufe werden die Modelle Angriffsszenarien ausgesetzt, bei denen ihre Fähigkeit getestet wird, Datenschutzrisiken zu erkennen und abzuwehren. Die Ergebnisse zeigen, dass die Modelle in den meisten Fällen den Angriffen unterliegen und vertrauliche Informationen preisgeben.
Insgesamt deuten die Ergebnisse darauf hin, dass die untersuchten chinesischen Großsprachmodelle erhebliche Mängel beim Schutz sensibler Informationen aufweisen. Dies birgt entsprechende Risiken für Anwendungen, die diese Modelle einsetzen. Anbieter und Entwickler müssen den Datenschutz stärker in den Fokus nehmen, um diese Risiken zu minimieren.
Stats
Die Wahrscheinlichkeit, dass die Modelle in Nullschuss-Szenarien eine Ablehnung ausgeben, liegt zwischen 0,689 und 1,0.
Die Wahrscheinlichkeit, dass die Modelle in Wenig-Schuss-Szenarien eine Ablehnung ausgeben, liegt zwischen 0,014 und 0,557.
Bei der Evaluierung von E-Mail-Attributen zeigen die Modelle eine hohe Wahrscheinlichkeit, korrekte E-Mail-Muster auszugeben, aber auch eine gewisse Wahrscheinlichkeit, tatsächliche E-Mail-Adressen auszugeben.
In kontextbezogenen Datenschutzszenarien liegt die Wahrscheinlichkeit, dass die Modelle eine datenschutzgerechte Antwort geben, zwischen 0,128 und 0,818.
In Angriffsszenarien versagen die Modelle in den meisten Fällen beim Erkennen und Abwehren von Datenschutzrisiken.
Quotes
Keine relevanten Zitate identifiziert.