本論文では、FastSpellと呼ばれる言語識別ツールを紹介する。FastSpellは、事前の言語識別結果を補完し、精度を向上させることを目的としている。
まず、複数の言語識別ツールを比較評価し、fastTextを採用することにした。fastTextは高速だが、類似言語の識別に課題があるため、Hunspellによるスペルチェックを追加で行うことで、この問題に対処する。
具体的なアルゴリズムは以下の通り。
この手法により、類似言語の識別精度が向上し、新しい言語バリアントの発見にも役立つ。また、設定ファイルの変更で、対象言語やその類似言語を柔軟に変更できる。
FastSpellは、ParaCrawl、MaCoCu、HPLTなどのプロジェクトで使用されており、多言語かつ大規模なデータ処理に威力を発揮している。今後の改善点としては、fastTextモデルの更新、高速化、辞書の拡充などが考えられる。
To Another Language
from source content
arxiv.org
Deeper Inquiries