Die Studie stellt ein Framework zur Nutzung multimodaler Eingabeaufforderungen vor, um die multimodale mehrsprachige neuronale Maschinenübersetzung (m3P) zu unterstützen. Dabei werden die Darstellungen verschiedener Sprachen mit derselben Bedeutung ausgerichtet und ein bedingter Bild-Sprache-Speicher für die Übersetzung generiert.
Es wird ein mehrsprachiger multimodaler Instruktionsdatensatz (InstrMulti102) mit 102 Sprachen erstellt, um die Methode zu unterstützen. Ziel ist es, den Darstellungsabstand zwischen den Sprachen zu minimieren, indem das Bild als zentrale Sprache betrachtet wird.
Die Ergebnisse zeigen, dass m3P die bisherigen textbasierten Baselines und mehrsprachigen multimodalen Methoden deutlich übertrifft. Weitere Experimente belegen die Wirksamkeit des Ansatzes bei Szenarien mit geringen Ressourcen und massiver Mehrsprachigkeit.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jian Yang,Ho... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17556.pdfDeeper Inquiries