Eine verbesserte Methode namens Min-K%++ zur Erkennung von Vortrainingsdaten in großen Sprachmodellen, die deutlich bessere Leistung als bisherige Ansätze erzielt.
Das Ziel der VoicePrivacy-Challenge 2024 ist es, Systeme zur Anonymisierung von Sprachdaten zu entwickeln, die die Identität des Sprechers verbergen, aber den sprachlichen und emotionalen Inhalt erhalten.
Sprachmodelle, die auf sensiblen Daten trainiert werden, können anfällig für Datenschutzlecks sein. Diese Arbeit untersucht Rauschüberlagerungsangriffe, die private Informationen aus dem Vortrainings-Datensatz extrahieren können, auch wenn das Modell nie Transkripte gesehen hat.
Ein neuartiges Modell zur Privatsphäre-schützenden Sprachverständnissystemen, das die Trennung der versteckten Schicht und adversarisches Training kombiniert, um sowohl die Spracherkennungs- als auch die Identitätserkennung-Angriffe zu verhindern, während die Leistung des Sprachverständnissystems weitgehend unbeeinträchtigt bleibt.