toplogo
ลงชื่อเข้าใช้

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향


แนวคิดหลัก
차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우, 모델의 편향이 증가하고 특정 사회 집단에 대한 차별적인 결과를 초래할 수 있다.
บทคัดย่อ

차분 프라이버시가 사전 훈련된 NLP 모델의 편향에 미치는 영향 분석

본 연구 논문에서는 차분 프라이버시를 적용하여 개인정보를 보호하면서 사전 훈련된 언어 모델을 미세 조정할 경우 발생하는 모델의 편향성 증가에 대해 심층 분석합니다.

edit_icon

ปรับแต่งบทสรุป

edit_icon

เขียนใหม่ด้วย AI

edit_icon

สร้างการอ้างอิง

translate_icon

แปลแหล่งที่มา

visual_icon

สร้าง MindMap

visit_icon

ไปยังแหล่งที่มา

본 연구는 차분 프라이버시가 사전 훈련된 BERT 언어 모델의 편향에 미치는 영향을 실증적으로 분석하는 것을 목표로 합니다. 특히, 다양한 수준의 프라이버시 예산(ϵ)을 적용하여 모델을 학습시키고, 여러 가지 편향 지표를 사용하여 성별 및 인종 하위 그룹에 대한 모델의 편향성을 측정합니다.
본 연구에서는 Jigsaw Unintended Bias 및 UCBerkeley Hate Speech 데이터 세트를 사용하여 혐오 발언 탐지 작업을 수행합니다. HuggingFace에서 제공하는 사전 훈련된 BERT-base-uncased 모델을 사용하고, 마지막 세 개의 레이어만 학습하여 차분 프라이버시의 효과를 극대화합니다. Pytorch Opacus 라이브러리를 사용하여 DP-SGD를 구현하고, 0.5, 1.0, 3.0, 6.0, 9.0의 다섯 가지 ϵ 값을 사용하여 모델을 학습합니다. 각 모델의 성능은 F1 점수를 기반으로 검증 세트에서 평가하고, 최적의 모델을 선택하여 테스트 세트에 대한 평가를 수행합니다.

ข้อมูลเชิงลึกที่สำคัญจาก

by Md. Khairul ... ที่ arxiv.org 10-25-2024

https://arxiv.org/pdf/2410.18749.pdf
Does Differential Privacy Impact Bias in Pretrained NLP Models?

สอบถามเพิ่มเติม

0
star