이 연구는 대규모 언어 모델의 성 편향 문제를 다루고 있다. 먼저 인과 매개 분석을 통해 모델의 다양한 구성 요소가 성 편향 생성에 미치는 영향을 추적하였다. 분석 결과, 하위 MLP 모듈과 상위 주의 집중 모듈이 성 편향 생성에 핵심적인 역할을 하는 것으로 나타났다. 이를 바탕으로 LSDM(Least Square Debias Method)이라는 지식 편집 기반 방법을 제안하여 직업 관련 대명사의 성 편향을 효과적으로 완화하였다. LSDM은 다른 편향 완화 방법들에 비해 모델의 다른 기능을 크게 훼손하지 않으면서도 성 편향을 효과적으로 줄일 수 있다. 또한 LSDM은 편향 생성 메커니즘에 대한 인과 추적 결과를 활용하여 보다 해석 가능한 접근 방식을 제공한다.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yuchen Cai,D... às arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14409.pdfPerguntas Mais Profundas