核心概念
지리적 요인이 언어 모델의 상식 추론 능력에 미치는 영향을 이해하기 위해 인도네시아 11개 주의 다양한 문화를 다룬다.
要約
이 논문은 인도네시아 11개 주의 다양한 문화를 다루는 IndoCulture 데이터셋을 소개한다. 기존 연구들이 주로 영어 문화에 초점을 맞추어 문화적 편향이 발생할 수 있는 것과 달리, IndoCulture는 현지인들이 직접 개발한 데이터셋이다.
데이터셋 구축 과정:
- 11개 주의 현지인 전문가 22명이 참여하여 12개의 세부 주제에 따라 데이터를 작성했다.
- 2단계의 엄격한 품질 관리 과정을 거쳤다.
- 최종적으로 2,429개의 고품질 데이터가 구축되었다.
실험 결과:
- 최고의 오픈소스 모델도 53.2%의 정확도에 그쳐 현지인의 100% 정확도와 큰 차이를 보였다.
- 일부 지역(발리, 서부 자바)에서는 더 정확한 예측을 하는 것으로 나타났다.
- 위치 정보를 추가하면 특히 GPT-4와 같은 대규모 모델의 성능이 향상되어, 지리적 맥락이 상식 추론에 중요함을 시사한다.
統計
심지어 최고의 오픈소스 모델도 53.2%의 정확도에 그쳤다.
발리와 서부 자바 등 특정 지역에서는 더 정확한 예측을 하는 것으로 나타났다.
위치 정보를 추가하면 GPT-4와 같은 대규모 모델의 성능이 향상되었다.
引用
"지리적 요인이 언어 모델의 상식 추론 능력에 미치는 영향을 이해하기 위해 인도네시아 11개 주의 다양한 문화를 다룬다."
"최고의 오픈소스 모델도 53.2%의 정확도에 그쳐 현지인의 100% 정확도와 큰 차이를 보였다."
"위치 정보를 추가하면 특히 GPT-4와 같은 대규모 모델의 성능이 향상되어, 지리적 맥락이 상식 추론에 중요함을 시사한다."