Konsep Inti
スペイン語のシーケンス・トゥ・シーケンス事前学習言語モデルの実装と評価を紹介する。
Abstrak
- スペイン語に特化したBART、T5、BERT2BERTスタイルモデルが提供される。
- シーケンス・トゥ・シーケンスタスクにおける性能が競争力があることが示される。
- ダイアログ生成、機械翻訳などの多様なタスクでモデルの性能が評価される。
- BARTOとT5Sは他の多言語モデルよりも優れた性能を発揮する。
- ディープな分析や質問応答、翻訳、ダイアログ生成など幅広いタスクで優れた結果を示す。
導入
最近の進歩により、非英語圏向けのプリトレーニング済み言語モデルが増加している。特にエンコーダー専用およびデコーダー専用アーキテクチャに重点を置いている。
スペイン語のシーケンス・トゥ・シーケンス事前学習言語モデル
- OSCAR 21.09コーパスやmC4-esコーパスを使用して事前学習を行う。
- BARTOはBART基本アーキテクチャに従う。T5SはT5.1.14基本バージョンに従う。
- BERT2BERT形式ではBETO2BETOやRoBERTa2RoBERTaなど複数のモデルを提供。
評価
- 要約、質問回答、分割再表現、ダイアログ生成、機械翻訳など幅広いタスクで性能評価を行う。
- T5SとBARTOは要約タスクで高いパフォーマンスを示す。ジェネレーティブ質問回答ではT5Sが優れた結果を出す。
- 分割再表現ではT5Sが最も高い評価を受ける。ダイアログ生成ではBARTOがリードし、機械翻訳でも競争力ある結果を示す。
Statistik
スペイン文書内部から122,500 kmまで外側端から内側端まで122,500 km (Source: Generative Question Answer)
La introducción de información ha mejorado (el sistema recibe más datos), y la salida todavía no es muy buena. (Target: Machine Translation)