Core Concepts
In-domain health data corpus development for low-resource languages is crucial for improving machine translation models.
Abstract
低リソース言語向けのインドメイン健康データコーパスの開発は、機械翻訳モデルの改善に重要である。英語とアイルランド語の健康データペア向けに作成されたgaHealthコーパスを使用したモデルは、LoResMT2021 Shared Taskから最高性能モデルと比較してBLEUスコアが最大22.2ポイント(40%)向上した。この研究では、PDF文書からのテキスト抽出や言語検出など、gaHealthコーパスの開発プロセスが詳細に記述されている。さらに、Transformerアーキテクチャを使用してトレーニングされたモデルは、EN-GAおよびGA-EN方向で優れた性能を示しました。
Stats
gaHealthコーパスは16,201行の平行テキストファイルから構成されています。
英語とアイルランド語の語彙サイズは19,269個です。
ハイパーパラメータ最適化では、学習率0.1〜2、バッチサイズ1024〜8192などが使用されました。
Quotes
"Machine Translation is a mature technology for many high-resource language pairs."
"To assess the merits of using in-domain data, a dataset for the specific domain of health was developed for the low-resource English to Irish language pair."
"Models developed using the gaHealth corpus demonstrated a maximum BLEU score improvement of 22.2 points (40%)."