核心概念
倫理的で社会的に責任のあるブラジルのAI開発には、ポルトガル語の多様な方言やブラジル国内の多様な言語を考慮した、包括的な言語データを使用することが不可欠である。
本稿は、生成AIの進歩に伴い、人間の重要な属性である言語的多様性が脅威にさらされている現状を指摘し、ブラジルのAI開発における課題と対策を論じている。
ブラジルにおける言語的多様性の現状
ブラジルではポルトガル語が公用語とされているが、実際には多様な言語が話されている。
先住民言語、移民言語、ブラジル手話(Libras)などが憲法や法律で認められており、共存している。
IPHAN(歴史芸術遺産研究所)によるINDL(全国言語的多様性調査)では、先住民言語、アフリカ系ブラジル人コミュニティの言語、移民言語、手話、クレオール言語、ポルトガル語とその方言バリエーションを含む6つのグループの言語が確認されている。
AI開発における課題
AI開発において、単一の言語や方言に偏ったデータを使用すると、その言語や方言が優勢となり、他の言語や方言が軽視される可能性がある。
特に、データの少ない言語や方言はAI開発から取り残され、デジタルデバイドが拡大する可能性がある。
提言
ブラジルのAI開発においては、ポルトガル語の多様な方言だけでなく、他の言語のデータも積極的に収集・利用する必要がある。
特に、データの少ない言語や方言については、体系的な収集・保存・共有の仕組みを構築する必要がある。
ABRALIN(ブラジル言語学会)の社会言語学委員会とANPOLL(文学・言語学大学院協会)の社会言語学GTは、ブラジルの言語的多様性を反映したAI開発を推進するために、「ブラジル言語的多様性プラットフォーム」の構築を提案している。
結論
倫理的で社会的に責任のあるブラジルのAI開発には、ポルトガル語の多様な方言やブラジル国内の多様な言語を考慮した、包括的な言語データを使用することが不可欠である。
統計
2010年の時点で、ブラジルでは少なくとも23の言語が公用語として認められている。
これらの言語には、13の先住民言語と9の移民言語が含まれる。