Основные понятия
차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우, 모델의 편향이 증가하고 특정 사회 집단에 대한 차별적인 결과를 초래할 수 있다.
Аннотация
차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향 분석
본 연구 논문에서는 차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우 발생하는 모델의 편향성 증가에 대해 심층 분석합니다.
본 연구는 차분 프라이버시가 사전 훈련된 BERT 언어 모델의 편향에 미치는 영향을 실증적으로 분석하는 것을 목표로 합니다. 특히, 다양한 수준의 프라이버시 예산(ϵ)을 적용하여 모델을 학습시키고, 여러 가지 편향 지표를 사용하여 성별 및 인종 하위 그룹에 대한 모델의 편향성을 측정합니다.
본 연구에서는 Jigsaw Unintended Bias 및 UCBerkeley Hate Speech 데이터 세트를 사용하여 혐오 발언 탐지 작업을 수행합니다. HuggingFace에서 제공하는 사전 훈련된 BERT-base-uncased 모델을 사용하고, 마지막 세 개의 레이어만 학습하여 차분 프라이버시의 효과를 극대화합니다. Pytorch Opacus 라이브러리를 사용하여 DP-SGD를 구현하고, 0.5, 1.0, 3.0, 6.0, 9.0의 다섯 가지 ϵ 값을 사용하여 모델을 학습합니다. 각 모델의 성능은 F1 점수를 기반으로 검증 세트에서 평가하고, 최적의 모델을 선택하여 테스트 세트에 대한 평가를 수행합니다.