Concepts de base
大規模言語モデルの構築には、言語コミュニティの権利と文化的アイデンティティを尊重し、倫理的で責任あるアプローチが不可欠である。
Résumé
本論文は、大規模多言語言語モデルの構築における社会的・倫理的な課題と考慮事項について論じている。
まず、言語モデル開発における6つの主要な課題を指摘している。
- 技術者の言語イデオロギー
- 構造的な不平等と植民地主義の歴史
- ネオコロニアリズムと疎外
- 言語の危機と文化的アイデンティティ
- 言語と文化の関係
- 非西洋的な認識論に基づく言語のモデル化
次に、これらの課題に対処するための6つのアプローチを提案している。
- 人権と言語権の尊重
- コミュニティを中心とした研究
- 関係性倫理
- データ主権と適切な主体による管理
- 文化的解釈
- 地域コミュニティとの協力
これらのアプローチを通じて、大規模多言語言語モデルの構築において、言語コミュニティの権利と文化的アイデンティティを尊重し、倫理的で責任あるデータ収集を行うことの重要性が強調されている。
Stats
「言語は文化である」 - ナイジェリア匿名
「コミュニケーションは文化であり、文化はコミュニケーションである」 - 人類学者エドワード・T・ホール
Citations
「データは単なるデータではない。これらのモデルとそのトレーニングデータセットは、圧倒的な富と政治的な力を持つ組織によって作成され、展開されているのが現状である。」
「言語は単なるデータではなく、社会的・文化的・歴史的な文脈に埋め込まれたものである。」