本研究では、カザフ語、英語、ロシア語、トルコ語の4言語間の機械翻訳のために大規模パラレルコーパス「KazParC」を開発した。KazPaRCは合計371,902の平行文を含み、様々なドメインからデータを収集した。人間の翻訳者の協力を得て作成された。
KazPaRCを使用して開発された機械翻訳モデル「Tilmash」は、業界大手のGoogle TranslateやYandex Translateと比較しても遜色のない性能を示した。特に法律文書やジェネラルドメインの文章の翻訳では優れた結果が得られた。一方で、慣用句や比喩表現の翻訳では課題が残る。
また、合成データを組み合わせて学習したTilmashモデルは、KazPaRCのみで学習したモデルよりも優れた性能を発揮した。これは、合成データを活用することで語彙の多様性が向上し、翻訳精度が高まったことを示唆している。ただし、合成データには誤訳や文法的な問題が含まれる可能性があるため、慎重に扱う必要がある。
KazPaRCとTilmashは、クリエイティブ・コモンズ 表示 4.0 国際ライセンスの下で公開されており、研究コミュニティで自由に利用できる。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Rustem Yeshp... klokken arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19399.pdfDypere Spørsmål