Core Concepts
본 연구는 제한된 산업에서의 편향성 감소를 위해 자동화된 데이터셋 증강 기법과 편향 정량화 지표를 제안한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 편향성 문제를 해결하기 위한 방법을 제시한다.
데이터셋 증강: 편향 생산자(bias producer)와 편향자(biaser) 개념을 도입하여 기존 데이터셋을 자동으로 증강한다. 이를 통해 외부 데이터에 의존하지 않고도 데이터셋의 다양성을 높일 수 있다.
편향 정량화:
mb-index: 모델의 성능(perplexity)과 편향성(stereotype score)을 결합한 지표로, 모델의 편향 정도를 측정한다.
db-index: 데이터셋의 편향 정도를 측정하는 지표로, 데이터셋 내 각 클러스터의 평균 유사도를 계산한다.
실험 결과:
데이터셋 증강을 통해 db-index가 감소하였고, 증강 데이터로 fine-tuning한 모델의 mb-index가 낮아졌다.
이는 제안 방법이 LLM의 편향성 감소에 효과적임을 보여준다.
향후 연구에서는 더 큰 규모의 데이터셋과 모델을 대상으로 실험할 필요가 있다.
Stats
원본 데이터셋 Sample A의 db-index는 0.56이었으나, 증강 데이터셋의 db-index는 0.49로 감소하였다.
원본 데이터셋 Sample B의 db-index는 0.71이었으나, 증강 데이터셋의 db-index는 0.65로 감소하였다.
증강 데이터로 fine-tuning한 모델 C와 D의 mb-index는 각각 1.36 x 10^-3, 5.24 x 10^-4로, 원본 데이터로 fine-tuning한 모델 A와 B의 mb-index 2.16 x 10^-3, 7.65 x 10^-4보다 낮았다.