本論文では、ポルトガル語の神経処理を支援するために、GLUE (General Language Understanding Evaluation) およびSuperGLUE ベンチマークから機械翻訳によって作成したデータセットを紹介する。これらのデータセットは、PORTULAN ExtraGLUEと呼ばれる。
データセットの作成では以下の点に留意した:
作成したデータセットの品質を確認するため、サンプリングと手動評価を行った。その結果、機械翻訳のエラーは平均8%、ラベルの誤りは平均2%と比較的低い水準であることが分かった。
また、これらのデータセットを使用して、ポルトガル語の2つの変種(欧州ポルトガル語とブラジルポルトガル語)に対してAlbertinaモデルの低ランク適応(LoRA)を行い、ベースラインモデルを提供した。これらのモデルは、PORTULAN ExtraGLUEデータセットに対する最初のベースラインとなる。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Tomá... om arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05333.pdfDiepere vragen