Core Concepts
언어 모델의 표현 공간에서 개입을 통해 특정 개념(예: 성별)의 인코딩을 변경할 수 있으며, 이를 자연어로 변환하여 개입의 효과를 분석하고 편향 완화에 활용할 수 있다.
Abstract
이 연구에서는 언어 모델의 표현 공간에서 개입을 수행하고, 이를 자연어로 변환하는 방법을 제안한다.
먼저, 표현 공간에서 다양한 개입 기법(LEACE, MiMiC, MiMiC+α)을 적용하여 특정 개념(성별)의 인코딩을 변경한다. 그 다음, 역변환 모델을 사용하여 개입된 표현을 다시 자연어로 변환한다.
이렇게 생성된 자연어 반사실적 문장을 분석한 결과, 개입 기법에 따라 다양한 언어적 변화가 관찰되었다. 대명사 사용의 변화 외에도 전치사, 내용어 등 더 미묘한 변화가 있었다. 이를 통해 언어 모델이 성별과 관련된 다양한 언어적 편향을 인코딩하고 있음을 확인할 수 있었다.
또한 생성된 반사실적 문장을 데이터 증강에 활용하여 직업 분류 모델의 편향을 완화할 수 있음을 보였다. 이는 표현 공간 개입 기법과 자연어 역변환을 결합하여 편향 완화에 활용할 수 있음을 시사한다.
Stats
그는 그녀의 가족이 Pittsfield의 First Universalist Church의 오랜 회원이라고 말했다.
그녀의 시는 자연에 대한 깊은 감사와 직관 및 경험을 반영한다.
그는 최근 수십 년간 영화 경력을 이어왔지만 아직 꽃을 피우지 못했다.
그녀의 브로드웨이 경력은 1950년대 후반부터 현재까지 수십 년간 이어져 왔다.
Quotes
"그녀는 LSAT 절차 준비 과정을 가르쳐 왔으며, 오리건 변호사 협회와 주 변호사들을 위한 새로운 계약과 활동에 대한 패널 토론을 이끌어 왔다."
"그는 기타를 치지 않을 때는 대부분의 시간을 가족과 함께 보내며, 럭비를 보고, 수학을 가르치며, 코드를 작성한다."