Core Concepts
ポルトガル語の神経処理を支援するために、主要な英語ベンチマークをマシン翻訳して作成したデータセットと、それらのデータセットを使用して微調整したモデルを提供する。
Abstract
本論文では、ポルトガル語の神経処理を支援するために、GLUE (General Language Understanding Evaluation) およびSuperGLUE ベンチマークから機械翻訳によって作成したデータセットを紹介する。これらのデータセットは、PORTULAN ExtraGLUEと呼ばれる。
データセットの作成では以下の点に留意した:
文法的な受容性を評価するCoLAデータセットは除外した
代名詞解決に関する課題であるWNLIとWSCデータセットは、翻訳の問題から除外した
固有名詞の扱いに課題があるReCoRDデータセットも除外した
作成したデータセットの品質を確認するため、サンプリングと手動評価を行った。その結果、機械翻訳のエラーは平均8%、ラベルの誤りは平均2%と比較的低い水準であることが分かった。
また、これらのデータセットを使用して、ポルトガル語の2つの変種(欧州ポルトガル語とブラジルポルトガル語)に対してAlbertinaモデルの低ランク適応(LoRA)を行い、ベースラインモデルを提供した。これらのモデルは、PORTULAN ExtraGLUEデータセットに対する最初のベースラインとなる。
Stats
機械翻訳エラーの割合は平均8%と比較的低い
ラベルの誤りの割合は平均2%と低い
欧州ポルトガル語とブラジルポルトガル語の間でBLEUスコアは57.3と大きな差がある