대형 언어 모델에 내재된 다양한 편향을 탐지하고 이해하기 위해 불확실성 정량화(UQ)와 설명 가능한 AI(XAI) 기법을 활용하는 방법을 제안한다.
대규모 언어 모델이 학습 데이터의 고정관념을 재현하고 심화시킬 수 있다는 문제를 해결하기 위해, 다차원 고정관념 탐지 모델을 개발하고 이를 활용하여 언어 모델의 편향을 평가한다.