Core Concepts
언어 모델은 토지 분쟁에 대한 지식을 언어에 따라 일관되지 않게 회상한다.
Abstract
이 논문은 토지 분쟁에 대한 언어 모델의 지정학적 편향을 연구한다. 저자들은 BORDERLINES라는 다국어 데이터셋을 소개하여 251개의 토지 분쟁 사례와 49개 언어로 구성된 질문 세트를 제공한다. 이를 통해 언어 모델의 사실 회상, 지정학적 편향, 일관성을 평가할 수 있는 지표를 제안한다. 실험 결과, 언어 모델은 토지 분쟁에 대한 지식을 언어에 따라 일관되지 않게 회상하는 경향이 있음을 보여준다. 특히 대형 모델이 소형 모델보다 더 편향적이며, 지시 학습 모델이 기반 모델보다 성능이 낮다는 점이 주목할 만하다. 저자들은 또한 언어 모델의 편향을 증폭 또는 완화하기 위한 프롬프트 수정 전략을 제안하고, 3개의 주요 토지 분쟁 사례에 대한 질적 분석을 수행한다.
Stats
토지 분쟁 251개, 49개 언어로 구성된 다국어 질문 세트 726개
토지 분쟁 중 161개는 통제국이 알려져 있고, 90개는 통제국이 알려지지 않음
각 토지 분쟁에는 평균 2.11개의 언어와 2.31개의 청구국이 포함됨
각 국가는 평균 5개의 토지 분쟁을 청구함