低リソース言語向けのインドメイン健康データコーパスの開発は、機械翻訳モデルの改善に重要である。英語とアイルランド語の健康データペア向けに作成されたgaHealthコーパスを使用したモデルは、LoResMT2021 Shared Taskから最高性能モデルと比較してBLEUスコアが最大22.2ポイント(40%)向上した。この研究では、PDF文書からのテキスト抽出や言語検出など、gaHealthコーパスの開発プロセスが詳細に記述されている。さらに、Transformerアーキテクチャを使用してトレーニングされたモデルは、EN-GAおよびGA-EN方向で優れた性能を示しました。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Séam... alle arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03575.pdfDomande più approfondite