本論文では、ポルトガル語の神経処理を支援するために、GLUE (General Language Understanding Evaluation) およびSuperGLUE ベンチマークから機械翻訳によって作成したデータセットを紹介する。これらのデータセットは、PORTULAN ExtraGLUEと呼ばれる。
データセットの作成では以下の点に留意した:
作成したデータセットの品質を確認するため、サンプリングと手動評価を行った。その結果、機械翻訳のエラーは平均8%、ラベルの誤りは平均2%と比較的低い水準であることが分かった。
また、これらのデータセットを使用して、ポルトガル語の2つの変種(欧州ポルトガル語とブラジルポルトガル語)に対してAlbertinaモデルの低ランク適応(LoRA)を行い、ベースラインモデルを提供した。これらのモデルは、PORTULAN ExtraGLUEデータセットに対する最初のベースラインとなる。
To Another Language
from source content
arxiv.org
Djupare frågor