Core Concepts
Beitrag zur Erweiterung des Ökosystems offener neuronaler Encoder für Portugiesisch.
Abstract
Einführung von Grundlagenmodellen für die neuronale Kodierung von Portugiesisch.
Erweiterung des Ökosystems offener Encoder für Portugiesisch.
Vorstellung von Modellen mit verschiedenen Parametergrößen.
Bereitstellung neuer Datensätze für Portugiesisch.
Struktur: Einleitung, Verwandte Arbeiten, Daten, Modelle, Evaluation und Diskussion, Schlussfolgerungen.
Stats
Portugiesisch ist ressourcenarm im Vergleich zu Englisch.
Inaugurale Modelle: 900 Millionen Parameter Albertina und 335 Millionen Bertimbau.
Größere Modelle mit 1,5 Milliarden und 100 Millionen Parametern.
Quotes
"Portugiesisch ist ressourcenarm in Bezug auf grundlegende Sprachressourcen."
"Neuronale Sprachmodelle auf Transformer-Architektur sind der Mainstream-Ansatz für natürliche Sprachverarbeitungsaufgaben."
"Die größten und leistungsstärksten Modelle wurden für Englisch entwickelt."