이 연구는 대규모 언어 모델에 내재된 성 편향을 효과적으로 탐지하고 완화하는 방법을 제안한다.
먼저, 인과 매개 분석을 통해 모델의 다양한 구성 요소가 성 편향 생성에 미치는 영향을 추적한다. 분석 결과, 직업 대명사의 마지막 토큰에 작용하는 하단 MLP 모듈과 문장의 마지막 단어를 처리하는 상단 어텐션 모듈이 성 편향 생성에 중요한 역할을 한다는 것을 확인했다.
이를 바탕으로 LSDM(Least Square Debias Method)이라는 지식 편집 기반 방법을 제안했다. LSDM은 특정 직업 단어와 관련된 성 편향을 최소화하면서도 모델의 다른 기능을 최대한 보존할 수 있다. 실험 결과, LSDM은 기존 방법보다 성 편향을 더 효과적으로 완화하고 모델의 전반적인 성능도 잘 유지하는 것으로 나타났다.
이 연구는 성 편향 탐지와 완화를 통합적으로 다룬 최초의 시도로, 대규모 언어 모델의 편향 문제 해결에 기여할 것으로 기대된다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yuchen Cai,D... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14409.pdfDomande più approfondite