이 연구는 참여형 연구 방법을 사용하여 인도 19개 지역 하위문화권의 615개 사회적 유물 데이터셋을 구축하였다. 먼저 설문조사를 통해 각 지역 문화권의 대표적인 사회적 유물 267개를 수집하였다. 이후 게임 형식의 참여형 연구를 통해 유물에 대한 보다 자세한 설명을 수집하고 데이터셋을 확장하였다.
수집된 사회적 유물에는 지역 음식, 랜드마크, 의식, 직물 및 공예품, 춤과 음악 형태, 문학적 또는 정치적 인물 등이 포함되어 있다.
이렇게 구축된 데이터셋을 활용하여 4개의 널리 사용되는 대형 언어 모델(GPT-4, LlAMA2, PALM 2, FALCON)의 문화적 친숙도를 평가하였다. 평가 결과, 모델들 간에 지역 하위문화권에 대한 인지도 차이가 크게 나타났다. GPT-4와 PALM 2가 상대적으로 더 나은 성능을 보였지만, 모든 모델이 일부 지역의 유물을 잘 인식하지 못하는 것으로 나타났다. 이는 모델 학습 데이터의 편향성과 한계를 보여주는 결과이다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Agrima Seth,... klo arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14651.pdfSyvällisempiä Kysymyksiä