toplogo
Sign In

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향


Core Concepts
차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우, 모델의 편향이 증가하고 특정 사회 집단에 대한 차별적인 결과를 초래할 수 있다.
Abstract

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향 분석

본 연구 논문에서는 차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우 발생하는 모델의 편향성 증가에 대해 심층 분석합니다.

edit_icon

Customize Summary

edit_icon

Rewrite with AI

edit_icon

Generate Citations

translate_icon

Translate Source

visual_icon

Generate MindMap

visit_icon

Visit Source

본 연구는 차분 프라이버시가 사전 훈련된 BERT 언어 모델의 편향에 미치는 영향을 실증적으로 분석하는 것을 목표로 합니다. 특히, 다양한 수준의 프라이버시 예산(ϵ)을 적용하여 모델을 학습시키고, 여러 가지 편향 지표를 사용하여 성별 및 인종 하위 그룹에 대한 모델의 편향성을 측정합니다.
본 연구에서는 Jigsaw Unintended Bias 및 UCBerkeley Hate Speech 데이터 세트를 사용하여 혐오 발언 탐지 작업을 수행합니다. HuggingFace에서 제공하는 사전 훈련된 BERT-base-uncased 모델을 사용하고, 마지막 세 개의 레이어만 학습하여 차분 프라이버시의 효과를 극대화합니다. Pytorch Opacus 라이브러리를 사용하여 DP-SGD를 구현하고, 0.5, 1.0, 3.0, 6.0, 9.0의 다섯 가지 ϵ 값을 사용하여 모델을 학습합니다. 각 모델의 성능은 F1 점수를 기반으로 검증 세트에서 평가하고, 최적의 모델을 선택하여 테스트 세트에 대한 평가를 수행합니다.

Key Insights Distilled From

by Md. Khairul ... at arxiv.org 10-25-2024

https://arxiv.org/pdf/2410.18749.pdf
Does Differential Privacy Impact Bias in Pretrained NLP Models?

Deeper Inquiries

0
star