Die Autoren haben zwei Modelle entwickelt, um die Herausforderungen des Code-Mixing in mehrsprachigen Kontexten anzugehen.
Zunächst haben sie Tri-Distil-BERT, ein mehrsprachiges DistilBERT-Modell, auf Bangla, Englisch und Hindi vortrainiert. Anschließend haben sie dieses Modell mit code-gemischten Daten aus dem Yelp-Polarity-Datensatz weiter vortrainiert, um Mixed-Distil-BERT zu erstellen.
Beide Modelle wurden dann für drei verschiedene NLP-Aufgaben - Emotionserkennung, Sentimentanalyse und Erkennung von beleidigendem Sprachgebrauch - feinabgestimmt und mit anderen mehrsprachigen Modellen wie mBERT, XLM-R und sprachspezifischen Modellen wie BanglaBERT und HindiBERT verglichen.
Die Ergebnisse zeigen, dass die Leistung von Tri-Distil-BERT mit mBERT vergleichbar ist, während Mixed-Distil-BERT die Leistung von zweisprachigen Code-Mixing-Modellen wie BanglishBERT und HingBERT übertrifft. In einigen Fällen übertrifft Mixed-Distil-BERT sogar diese Modelle.
Die Autoren betonen, dass dies einer der ersten Versuche ist, ein Tri-Lingual-Code-Mixing-Sprachmodell zu entwickeln, und dass weitere Forschung in diesem Bereich erforderlich ist, um die Leistung weiter zu verbessern.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania