核心概念
多語言大型語言模型(MLLM)會在語言之間洩漏刻板印象,將一種語言中的文化偏見傳播到另一種語言,放大現有刻板印象或創造新的刻板印象,對社會認知和 AI 應用產生潛在危害。
統計資料
超過 70.00% 的印度人口在 2011 年是宗教信仰者。
在 34 位通過品質測試的英語調查受訪者中,沒有人選擇 VDV 士兵作為熟悉的群體。
在 76 位俄語和印地語調查受訪者中,沒有人選擇回族作為熟悉的群體。
引述
“Although language models are trained on language-based data rather than culture-based data, languages inherently reflect the stereotypes associated with their respective cultures.”
“MLLMs, being the backbone of many natural language processing (NLP) applications, have the potential to exacerbate this issue by exporting harmful stereotypes across cultures and reinforcing Anglocentrism.”