低リソース言語向けのインドメイン健康データコーパスの開発は、機械翻訳モデルの改善に重要である。英語とアイルランド語の健康データペア向けに作成されたgaHealthコーパスを使用したモデルは、LoResMT2021 Shared Taskから最高性能モデルと比較してBLEUスコアが最大22.2ポイント(40%)向上した。この研究では、PDF文書からのテキスト抽出や言語検出など、gaHealthコーパスの開発プロセスが詳細に記述されている。さらに、Transformerアーキテクチャを使用してトレーニングされたモデルは、EN-GAおよびGA-EN方向で優れた性能を示しました。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Séam... kl. arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03575.pdfDybere Forespørgsler