本研究は、アラビア語ウィキペディアの3つの版(アラビア語ウィキペディア、エジプト・アラビア語ウィキペディア、モロッコ・アラビア語ウィキペディア)の内容密度、品質、人的貢献度について探索的分析を行った。その結果、エジプト・アラビア語ウィキペディアでは、登録ユーザーによる大規模な自動テンプレート翻訳が行われており、その結果、低品質で文化的に代表性のない記事が大量に蓄積されていることが明らかになった。
この問題に対処するため、記事のメタデータを活用して自動的にテンプレート翻訳記事を検出するための機械学習分類器を構築した。実験の結果、XGBoostアルゴリズムが最も優れた性能を示し、オンラインアプリケーションとして公開された。また、検出済みのデータセットも研究コミュニティに公開された。
本研究では、このようなテンプレート翻訳の問題が、言語モデルの性能低下や文化的な不適切な表現につながる可能性について議論している。研究者は、このような自動生成された記事を訓練データから除外し、提案のオンラインツールを活用することが重要であると述べている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Saied Alshah... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00565.pdfDeeper Inquiries