Der Artikel stellt ein differentiell privates Vorhersageprotokoll namens PMixED vor, das praktische Next-Token-Vorhersagen für große Sprachmodelle ermöglicht.
In der ersten Phase wird ein Ensemble von fein abgestimmten Sprachmodellen erstellt, indem ein vortrainiertes Modell auf paarweise disjunkten Teilmengen eines privaten Datensatzes fein abgestimmt wird. In der zweiten Phase wird bei einer Abfrage eine Teilmenge des Ensembles ausgewählt und die Ausgabeverteilung jedes ausgewählten Modells auf eine Menge um die Ausgabeverteilung eines öffentlichen Modells projiziert. Anschließend werden diese projizierten Verteilungen gemittelt und daraus ein Token abgetastet.
PMixED bietet eine stärkere Datenschutzgarantie als die Ebene der Einzelstichprobe, indem es Differenzielle Privatsphäre auf Gruppenebene erreicht. Außerdem ist es effizienter als differentiell privates Training, da es den Datenschutz erst bei der Vorhersage und nicht während des Trainings gewährleistet. Die Experimente zeigen, dass PMixED eine bessere Leistung als differentiell privates Training erzielt.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы