핵심 개념
언어 모델의 이름에 따른 인종 및 성 차별에 대한 감사 결과
초록
대규모 언어 모델의 인종 및 성 차별에 대한 감사 결과를 조사한 연구
이름에 따라 발생하는 차별을 분석하고, 양적 앵커를 제공하여 차별을 줄일 수 있음
다양한 시나리오에서 이름에 따른 차별이 발생하며, 여성과 흑인 커뮤니티에 불리한 결과가 나타남
언어 모델의 내재적 편견이 모델의 응답에 영향을 미치는 것으로 나타남
통계
"우리는 168,000개의 응답 데이터 세트에서 99.96%가 부동 소수점 값으로 변환되었습니다."
"모델의 응답에 따라 범위의 중앙값을 도출하여 값으로 변환하는 방법을 사용했습니다."
인용구
"우리의 결과는 GPT-4에 대한 주요 결과와 본질적으로 유사하다."
"언어 모델의 내재적 편견이 모델의 응답에 영향을 미치는 것으로 나타남."