核心概念
社会経済的階級をNLP技術に取り入れる必要性を強調する。
摘要
言語学者が社会的階層化に関する研究を行ってきたが、NLP技術においては社会経済的階級の重要性が十分に考慮されていない。Labovの研究から始まり、言語とデモグラフィック要因の関係が明らかになってきた。しかし、NLP文献では社会経済的階級についてほとんど取り上げられておらず、20本の論文しかその存在を示していない。これらの論文の多くは低所得国や地域の格差を扱っているが、直接言語モデリングは行われていない。現在、NLP文献では社会経済的地位が報告されることは稀であり、主に都市部や大学生からデータが収集されており、中流階級以上の情報源から収集されている。しかし、低所得者からデータを収集することで質の高いデータを得ることが可能である。今後の研究では公平なNLP技術構築のためにすべての人口層を含める必要がある。
统计
Labov (1964)はニューヨーク市で英語の社会的階層化を初めて体系的に調査した。
Flekova et al. (2016)は最近、異なる社会層間で意味やスタイルに大きな変動があることを示しています。
20本の論文中、4本は低所得国や地域でソーシャルエクイティ向上を目指しています。
Tafreshi et al. (2021)は収入や教育水準を使用して感情予測モデルを構築しました。
Malik et al. (2022)はヒンディー語表現向けに偏見測定手法を提案しました。
引用
"Excluding a crucial sociodemographic factor like social class from consideration impoverishes NLP’s capability to counteract social biases in its tools and datasets."
"Creating new datasets and tools to identify social class distinctions in text would not only help build fairer NLP technology, but also benefit related disciplines that use NLP tools to stratify their data along socio-demographic lines."
"NLP systems are enforcing a standard of language by limiting the lects they represent."