toplogo
登入

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향


核心概念
차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우, 모델의 편향이 증가하고 특정 사회 집단에 대한 차별적인 결과를 초래할 수 있다.
摘要

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향 분석

본 연구 논문에서는 차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우 발생하는 모델의 편향성 증가에 대해 심층 분석합니다.

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

본 연구는 차분 프라이버시가 사전 훈련된 BERT 언어 모델의 편향에 미치는 영향을 실증적으로 분석하는 것을 목표로 합니다. 특히, 다양한 수준의 프라이버시 예산(ϵ)을 적용하여 모델을 학습시키고, 여러 가지 편향 지표를 사용하여 성별 및 인종 하위 그룹에 대한 모델의 편향성을 측정합니다.
본 연구에서는 Jigsaw Unintended Bias 및 UCBerkeley Hate Speech 데이터 세트를 사용하여 혐오 발언 탐지 작업을 수행합니다. HuggingFace에서 제공하는 사전 훈련된 BERT-base-uncased 모델을 사용하고, 마지막 세 개의 레이어만 학습하여 차분 프라이버시의 효과를 극대화합니다. Pytorch Opacus 라이브러리를 사용하여 DP-SGD를 구현하고, 0.5, 1.0, 3.0, 6.0, 9.0의 다섯 가지 ϵ 값을 사용하여 모델을 학습합니다. 각 모델의 성능은 F1 점수를 기반으로 검증 세트에서 평가하고, 최적의 모델을 선택하여 테스트 세트에 대한 평가를 수행합니다.

從以下內容提煉的關鍵洞見

by Md. Khairul ... arxiv.org 10-25-2024

https://arxiv.org/pdf/2410.18749.pdf
Does Differential Privacy Impact Bias in Pretrained NLP Models?

深入探究

0
star