核心概念
カザフ語、英語、ロシア語、トルコ語の4言語間の機械翻訳のために開発された大規模パラレルコーパス「KazParC」を紹介し、それを使用して開発された高性能な機械翻訳モデル「Tilmash」の性能を報告する。
摘要
本研究では、カザフ語、英語、ロシア語、トルコ語の4言語間の機械翻訳のために大規模パラレルコーパス「KazParC」を開発した。KazPaRCは合計371,902の平行文を含み、様々なドメインからデータを収集した。人間の翻訳者の協力を得て作成された。
KazPaRCを使用して開発された機械翻訳モデル「Tilmash」は、業界大手のGoogle TranslateやYandex Translateと比較しても遜色のない性能を示した。特に法律文書やジェネラルドメインの文章の翻訳では優れた結果が得られた。一方で、慣用句や比喩表現の翻訳では課題が残る。
また、合成データを組み合わせて学習したTilmashモデルは、KazPaRCのみで学習したモデルよりも優れた性能を発揮した。これは、合成データを活用することで語彙の多様性が向上し、翻訳精度が高まったことを示唆している。ただし、合成データには誤訳や文法的な問題が含まれる可能性があるため、慎重に扱う必要がある。
KazPaRCとTilmashは、クリエイティブ・コモンズ 表示 4.0 国際ライセンスの下で公開されており、研究コミュニティで自由に利用できる。
統計資料
1 қыркүйекте бесiншi ана өлiмi тiркелдi。
1 qyrkuiekte besinshi ana olimi tirkeldi.
2024年3月28日にarXiv:2403.19399v1[cs.CL]として公開された。
KazParCには合計371,902の平行文が含まれる。
引述
"KazParC, a parallel corpus designed for machine translation across Kazakh, English, Russian, and Turkish."
"Remarkably, the performance of Tilmash is on par with, and in certain instances, surpasses that of industry giants, such as Google Translate and Yandex Translate, as measured by standard evaluation metrics, such as BLEU and chrF."
"Both KazParC and Tilmash are openly available for download under the Creative Commons Attribution 4.0 International License (CC BY 4.0) through our GitHub repository."