Core Concepts
GPT-4는 전 세계적으로 다양한 지리적 특징을 충분히 인코딩하지 못하고 있으며, 특히 유네스코 세계 문화유산 사이트와 같은 지리적 특징에 대해 지역 간 편차가 존재한다.
Abstract
이 연구는 GPT-4의 지리적 다양성을 조사하기 위해 자연어 기반 지리 추측 실험을 수행했다. DBpedia 초록을 사용하여 지리적 특징을 마스킹하고 GPT-4에게 정확한 이름을 추측하도록 했다.
전반적으로 GPT-4는 dbo:Valley, dbo:Bay, dbo:Sea, dbo:WorldHeritageSite와 같은 지리적 특징 유형에 대해 충분한 지식을 인코딩하지 못하고 있는 것으로 나타났다.
국가 수준에서 분석한 결과, GPT-4의 유네스코 세계 문화유산 사이트 추측 성능에 국가 간 편차가 존재했다. 그러나 UNESCO 지역 수준에서는 이러한 편차가 상대적으로 작았다. 이는 지리적 규모가 커질수록 지역 간 편차가 줄어들 수 있음을 시사한다.
또한 멀티모달 GPT-4 모델이 유니모달 모델보다 전반적으로 지리적 지식이 부족한 것으로 나타났다.
이 연구는 지리적 다양성이라는 윤리적 원칙에 대한 논의를 시작하고자 한다. 향후 연구에서는 다양한 지식 베이스와 더 포괄적인 탐침 기법을 활용하여 지리적 특징의 표현에 대한 심층적인 분석이 필요할 것이다.
Stats
GPT-4 유니모달 모델의 dbo:WorldHeritageSite 추측 정확도: 프랑스 0.5, 인도 0.47, 중국 0.39, 이탈리아 0.38, 벨기에 0.33
GPT-4 멀티모달 모델의 dbo:WorldHeritageSite 추측 정확도: 인도 0.41, 중국 0.33, 스페인 0.31, 이탈리아 0.29, 벨기에 0.25
GPT-4 유니모달 모델의 UNESCO 지역별 dbo:WorldHeritageSite 추측 정확도: 라틴 아메리카 및 카리브해 0.413, 아시아 및 태평양 0.407, 아프리카 0.4, 유럽 및 북미 0.36, 아랍 국가 0.28
GPT-4 멀티모달 모델의 UNESCO 지역별 dbo:WorldHeritageSite 추측 정확도: 아프리카 0.37, 아시아 및 태평양 0.36, 아랍 국가 0.28, 유럽 및 북미 0.27, 라틴 아메리카 및 카리브해 0.26