Die Studie untersucht die Ausrichtung des mehrsprachigen Wissens in Großen Sprachmodellen auf drei Ebenen: Leistung, Konsistenz und Leitfähigkeit. Die Ergebnisse zeigen, dass:
Die Grundfähigkeiten und das faktische Wissen der Modelle in englischen und nicht-englischen Sprachen unausgewogen sind. Obwohl die Modelle eine hohe Konsistenz zwischen den Sprachen aufweisen, ist ihre Leitfähigkeit des Wissens von einer Sprache in eine andere gering.
Mehrsprachiges Vortraining verbessert zwar die Grundfähigkeiten und die Wissensausrichtung auf der Leistungs- und Konsistenzebene, kann die Leitfähigkeit des Wissens jedoch nicht wesentlich steigern. Fortgesetztes Vortraining in einer Zielsprache verbessert nur die Leistung in dieser Sprache, geht aber zu Lasten anderer Sprachen.
Mehrsprachige Instruktionsfeinjustierung verbessert die Grundfähigkeiten in der Zielsprache und mildert den Leistungsabfall beim faktischen Wissen ab, kann die Konsistenz und Leitfähigkeit des Wissens jedoch kaum verbessern.
Insgesamt zeigt die Studie, dass die derzeitigen Methoden zur Steigerung der Mehrsprachigkeit von Großen Sprachmodellen zwar hilfreich sind, die Ausrichtung des mehrsprachigen Wissens jedoch nach wie vor unzureichend bleibt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Changjiang G... kl. arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04659.pdfDybere Forespørgsler