Charles Translator ist ein maschinelles Übersetzungssystem, das direkt zwischen Ukrainisch und Tschechisch übersetzt, um die Kommunikation zwischen ukrainischen Flüchtlingen und der tschechischen Gesellschaft zu erleichtern.
Die Leistung mehrsprachiger Sprachmodelle hängt nicht nur von der Trainingsdatengröße ab, sondern auch von der Wahl der zentralen Sprache. Andere Sprachen als Englisch könnten möglicherweise eine effizientere Grundlage für mehrsprachige Anwendungen bieten.
Verschiedene parameter-effiziente feinabstimmungsmethoden (PEFT) können die übersetzungsgenauigkeit für ressourcenarme sprachen bei minimalem ressourcenverbrauch verbessern.
Eine Anti-LM-Decodierung mit exponentiellem Abklingen verbessert die Übersetzungsleistung von Großsprachmodellen in Zero-Shot-Szenarien deutlich, insbesondere bei Fällen, in denen das Modell die Ausgangssprache anstelle der Zielsprache generiert.
Verschiedene Methoden zum Abrufen von Übersetzungsbeispielen aus einem Übersetzungsspeicher werden systematisch untersucht und ihre Auswirkungen auf die Übersetzungsleistung verschiedener neuronaler Übersetzungsarchitekturen analysiert.
Der Einsatz von Kontextinformationen aus dem Quelltext kann die Leistung von referenzfreien Bewertungsmetriken für maschinelle Übersetzung deutlich verbessern und sogar das Niveau referenzbasierter Metriken erreichen.
Große Sprachmodelle wie GPT-4 eröffnen neue Möglichkeiten für die maschinelle Übersetzung, wie z.B. Übersetzung langer Dokumente, stilisierte Übersetzung und interaktive Übersetzung. Gleichzeitig bringen sie neue Herausforderungen wie Datenschutz mit sich, die es zu adressieren gilt.
Die Leistung der Minimum-Bayes-Risiko-Decodierung hängt davon ab, wie gut die Stichproben die wahre Verteilung der Referenzübersetzungen approximieren.
Das Trimmen des BPE-Vokabulars hat in den meisten Fällen keine positiven Auswirkungen auf die Leistung des Übersetzungsmodells und kann sogar zu erheblichen Leistungseinbußen führen.
Sāmayik ist ein Datensatz mit rund 53.000 parallelen Englisch-Sanskrit-Sätzen, der die zeitgenössische Verwendung des Sanskrit in Prosa abdeckt. Der Datensatz überwindet die Beschränkung bestehender Korpora, die sich hauptsächlich auf Poesie und klassische Literatur konzentrieren.