Kumari, V., & Murthy, K. N. (2024). Parallel Corpus Augmentation using Masked Language Models. arXiv preprint arXiv:2410.03194v1.
本研究は、ニューラル機械翻訳(NMT)におけるデータ不足問題に対処するため、既存の対訳コーパスから自動的に新しい対訳文を生成し、コーパスを拡張する効果的な手法を提案することを目的とする。
本研究では、マスク言語モデル(具体的にはXLM-RoBERTa)を用いて、原文中の単語をマスクし、その文脈に適合する代替単語を予測することで、多様なバリエーションの文を生成する。さらに、生成された文ペアに対して、文埋め込み(具体的にはLaBSE)を用いて意味的な類似度を計算し、翻訳として適切な文ペアのみを選別する。
提案手法を用いることで、単一の文ペアから数百もの新しい対訳文ペアを生成できることが示された。生成された文ペアは、文法的に正しく、意味的にも元の文ペアと類似しており、LaBSEスコアと機械翻訳品質評価ツール(TransQuest)を用いた評価でも高い品質であることが確認された。
本研究で提案された手法は、既存の対訳コーパスから自動的に質の高い新しい対訳文を生成することで、データ不足問題の軽減に大きく貢献する可能性がある。
本研究は、特にリソースの少ない言語ペアにおいて、高品質な機械翻訳システムの開発を促進する上で重要な意味を持つ。
本研究では、文レベルでのデータ拡張に焦点を当てているが、将来的には、句レベルや段落レベルでのデータ拡張についても検討する必要がある。また、生成された文ペアの品質をさらに向上させるために、より高度な文埋め込みモデルや品質評価指標の導入が期待される。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問