본 연구 논문에서는 차분 프라이버시를 보존하면서 언어 모델의 유용성, 다양성, 언어적 품질을 향상시키는 새로운 방법론인 DPRefine을 제시합니다.
민감한 개인 정보를 사용하는 언어 모델 학습에서 정보 유출을 방지하기 위해 차분 프라이버시(DP)가 중요해졌습니다. 차분 프라이버시 확률적 경사 하강법(DPSGD)은 모델 학습 중 정보 유출을 제한하는 널리 사용되는 기술이지만, 모델의 유용성, 다양성, 언어적 품질을 저하시키는 단점이 있습니다.
DPRefine은 모델 성능이 모델 초기화 및 특징 표현에 크게 좌우된다는 점에 착안하여 데이터 합성, 차분 프라이버시 미세 조정, 자가 증류의 세 단계로 구성됩니다.
데이터 합성 및 모델 초기화: 소형 사전 학습된 언어 모델(예: GPT-2)을 사용하여 고품질 합성 데이터를 생성하고 엄격한 필터링을 통해 모델을 초기화합니다. 이 단계는 개인 데이터를 사용하지 않고 수행됩니다.
차분 프라이버시 미세 조정: 초기화된 모델을 개인 데이터에서 DPSGD를 사용하여 미세 조정합니다. 이 단계는 개인 데이터에 접근하는 유일한 단계이며, 차분 프라이버시를 보장합니다.
자가 증류 기반 개선: DP 모델을 사용하여 새로운 학습 데이터를 생성하고 필터링을 적용하여 모델 출력을 개선합니다. 이 단계는 원본 개인 데이터에 접근하지 않고 수행됩니다.
XSum, PubMed, MRPC 데이터셋을 사용한 실험 결과, DPRefine은 DPSGD보다 유의미하게 우수한 성능을 보였습니다. 특히 AlpacaEval을 사용한 평가에서 DPRefine은 모든 데이터셋과 지표에서 DPSGD보다 평균 78.38% 더 선호되었습니다. 또한, DPRefine은 생성된 텍스트의 언어 오류를 84.0%까지 줄였으며, 비공개 모델에서 나타나는 불일치도 감소시켰습니다.
DPRefine은 차분 프라이버시를 보존하면서 언어 모델의 유용성, 다양성, 언어적 품질을 향상시키는 효과적인 방법입니다. 본 연구는 민감한 데이터를 사용하는 다양한 NLP 작업에서 고성능의 개인 정보 보호 모델을 개발하는 데 기여할 것으로 기대됩니다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Ivoline C. N... о arxiv.org 10-24-2024
https://arxiv.org/pdf/2410.17566.pdfГлибші Запити