Durch einen mehrsprachigen Trainingsansatz konnte ein leistungsstarkes Sprachmodell (Poro 34B) entwickelt werden, das die Fähigkeiten bestehender Modelle für die finnische Sprache deutlich übertrifft und auch in der Übersetzung sowie der Generierung von Englisch und Programmiersprachen konkurrenzfähig ist.
Das Lottery Ticket Prompt-Learning (LTP) Rahmenwerk integriert Gewinnertickets mit Soft Prompts, um die Leistung kleiner Sprachmodelle für mehrsprachige Aufgaben zu verbessern.
AURORA-M ist ein 15-Milliarden-Parameter-Sprachmodell, das auf Englisch, Finnisch, Hindi, Japanisch, Vietnamesisch und Code trainiert wurde. Es ist das erste quelloffene mehrsprachige Modell, das auf menschlich überprüften Sicherheitsanweisungen feinabgestimmt wurde, um die Entwicklung nicht nur mit herkömmlichen "Red-Teaming"-Überlegungen, sondern auch mit den spezifischen Bedenken der Biden-Harris-Exekutivorder zur sicheren, sicheren und vertrauenswürdigen Entwicklung und Nutzung von Künstlicher Intelligenz in Einklang zu bringen.
Die Entwicklung von kompakten mehrsprachigen Sprachmodellen wie mALBERT ist eine sinnvolle Alternative zu großen Sprachmodellen, da sie ähnliche Leistungen erzielen können, aber deutlich weniger Rechenressourcen benötigen.
Wir stellen Tri-Distil-BERT, ein mehrsprachiges Modell, das auf Bangla, Englisch und Hindi vortrainiert ist, und Mixed-Distil-BERT, ein Modell, das auf code-gemischten Daten feinabgestimmt ist, vor. Beide Modelle zeigen eine wettbewerbsfähige Leistung bei mehreren NLP-Aufgaben im Vergleich zu größeren Modellen wie mBERT und XLM-R.