이 연구는 언어 모델의 지리적 지식 편향을 평가하기 위해 4가지 지표를 제안했다.
첫째, 수도-국가 연결 예측 실험을 통해 지리적 지식의 편차를 평가했다. 결과적으로 모델 크기보다는 학습 데이터 품질이 더 큰 영향을 미치는 것으로 나타났다.
둘째, 모델 어휘에 포함된 도시 수를 분석하여 학습 데이터의 지리적 범위를 간접적으로 평가했다. 다국어 모델이 영어권 이외 지역을 더 잘 반영하지만, 여전히 편향이 존재했다.
셋째, 지리적 거리와 의미적 거리 간 상관관계를 분석했다. 모든 모델에서 상관관계가 낮아 지리적 거리를 잘 반영하지 못하는 것으로 나타났다.
넷째, 국가별 평균 의미적 거리를 분석하여 일부 지역(오세아니아, 동유럽, 아프리카)이 다른 지역에 비해 의미적으로 고립되어 있음을 확인했다.
이러한 결과는 언어 모델의 지리적 편향이 중요한 문제이며, 이를 해결하기 위한 노력이 필요함을 시사한다. 특히 재난 대응, 인도주의 지원 등 지리적 정보가 중요한 응용 분야에서 이러한 편향은 심각한 영향을 미칠 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문