핵심 개념
대규모 언어 모델에 내재된 성 편향을 인과 관계 분석을 통해 찾아내고, 이를 기반으로 한 지식 편집 기반 방법론을 통해 효과적으로 완화할 수 있다.
초록
이 연구는 대규모 언어 모델에 내재된 성 편향을 분석하고 완화하는 방법을 제안한다.
먼저, 인과 관계 분석을 통해 성 편향이 모델의 특정 구성 요소, 특히 하위 MLP 모듈과 상위 주의 집중 모듈에서 발생하는 것을 확인했다.
이를 바탕으로 LSDM(Least Square Debias Method)이라는 지식 편집 기반 방법론을 제안했다. LSDM은 직접적으로 편향된 파라미터를 수정하여 성 편향을 완화하는 동시에 모델의 다른 기능을 최대한 유지할 수 있다.
실험 결과, LSDM은 기존 방법론보다 성 편향을 더 효과적으로 완화하면서도 모델의 전반적인 성능을 잘 유지하는 것으로 나타났다. 이는 편향 발생 메커니즘에 대한 인과 관계 분석이 편향 완화에 중요한 역할을 한다는 것을 보여준다.
통계
성 편향이 가장 크게 나타나는 것은 마지막 직업 대명사 토큰에 대한 하위 MLP 모듈과 문장의 마지막 단어에 대한 상위 주의 집중 모듈이다.
LSDM은 기존 방법론보다 성 편향을 평균 71.4% 더 효과적으로 완화할 수 있다.
LSDM은 모델의 전반적인 성능을 잘 유지하며, 기존 모델과 가장 유사한 출력 확률 분포와 퍼플렉서티를 보인다.
인용구
"대규모 인공지능 모델, 특히 ChatGPT와 같은 모델이 다양한 분야에 통합되면서 이러한 시스템 내재 편향의 문제가 점점 더 큰 관심사로 대두되고 있다."
"현재 편향 연구는 주로 편향의 식별 및 위치 파악과 편향 완화라는 두 가지 측면에 집중되어 있다."
"이 연구는 편향의 위치 파악과 완화를 통합적으로 다루는 최초의 시도이다."