Core Concepts
Back-translation methodology for Cantonese-to-English NMT models.
Abstract
この記事は、広東語から英語へのニューラル機械翻訳(NMT)モデルにおけるバックトランスレーション手法に焦点を当てています。研究者たちは、合成データ生成のための双方向合成データ生成手法を調査し、Opus-MTや大規模LLMであるNLLBとmBARTを使用してモデルを微調整しました。実験結果では、すべての微調整モデルが基準展開モデルよりも大幅に優れていることが示されました。
Introduction
広東語は中国言語の中でも最も人気のある方言の1つであり、低リソース言語に対するニューラル機械翻訳(NMT)はまだ研究者にとって難しい課題です。
本研究では、広東語から英語への新しい言語ペアにおける合成データ増強方法論を探求しています。
Related Work
広東語から英語への機械翻訳に関する研究はこれまであまり注目されていませんでした。
Experimental Work
バックトランスレーションを用いた双方向合成コーパス生成方法論を広東語から英語へのNMTに適用しました。
Evaluations of CANTONMT
すべての微調整モデルが基準展開モデルよりも大幅に優れていることが示されました。
Adding more real data
より多くの実際のデータを使用して基準モデルを微調整することで、性能向上の可能性が示されました。
CANTONMT Platform
広東語から英語への研究をさらに促進するために、CantonMTプラットフォームが開発されました。
Stats
年2021年時点で広東省の人口は1億2684万人です。
香港とマカオ地域ではそれぞれ7,503,100人と704,149人が居住しています。