Der DOSA-Datensatz wurde durch partizipative Forschungsmethoden erstellt, um ein umfassendes Verständnis der sozialen Artefakte in 19 verschiedenen geografischen Subkulturen Indiens zu gewinnen.
Zunächst wurde eine Umfrage durchgeführt, in der die Teilnehmer gebeten wurden, die für ihre Kultur wichtigsten sozialen Artefakte zu nennen. Anschließend wurde ein spielbasierter Rahmen entwickelt, bei dem Teilnehmer aus denselben Kulturen Hinweise zu diesen Artefakten austauschten und deren Beschreibungen erarbeiteten. Durch diesen Prozess konnte der Datensatz auf insgesamt 615 Artefakte erweitert werden.
Die Analyse der vier gängigsten Sprachmodelle (GPT-4, LlAMA2, PALM 2 und FALCON) zeigt, dass diese erhebliche Unterschiede in ihrer Vertrautheit mit den regionalen Subkulturen aufweisen. Während einige Modelle wie GPT-4 und PALM 2 relativ gut mit den Artefakten vertraut sind, schneiden andere wie FALCON deutlich schlechter ab. Darüber hinaus zeigt sich, dass die Modelle auch innerhalb einzelner Bundesstaaten sehr unterschiedlich abschneiden und oft Schwierigkeiten haben, nuancierte Unterschiede zwischen ähnlichen Artefakten zu erkennen.
Diese Ergebnisse unterstreichen die Notwendigkeit, Sprachmodelle stärker an die kulturelle Vielfalt anzupassen und das Gemeinschaftswissen verschiedener Kulturen besser in den Trainingsprozess einzubinden. Der DOSA-Datensatz bietet hierfür eine wichtige Grundlage und zeigt, wie partizipative Forschungsmethoden zur Erstellung kulturell relevanter Datensätze beitragen können.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문