이 연구는 대규모 언어 모델의 성 편향 문제를 다루고 있다. 먼저 인과 매개 분석을 통해 모델의 다양한 구성 요소가 성 편향 생성에 미치는 영향을 추적하였다. 분석 결과, 하위 MLP 모듈과 상위 주의 집중 모듈이 성 편향 생성에 핵심적인 역할을 하는 것으로 나타났다. 이를 바탕으로 LSDM(Least Square Debias Method)이라는 지식 편집 기반 방법을 제안하여 직업 관련 대명사의 성 편향을 효과적으로 완화하였다. LSDM은 다른 편향 완화 방법들에 비해 모델의 다른 기능을 크게 훼손하지 않으면서도 성 편향을 효과적으로 줄일 수 있다. 또한 LSDM은 편향 생성 메커니즘에 대한 인과 추적 결과를 활용하여 보다 해석 가능한 접근 방식을 제공한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문