Core Concepts
Große Sprachmodelle können für die referenzlose Bewertung von Übersetzungen in Englisch und indischen Sprachen eingesetzt werden und erreichen dabei eine vergleichbare oder höhere Korrelation mit menschlichen Urteilen als bestehende Methoden.
Abstract
In dieser Studie wird untersucht, wie große Sprachmodelle (Large Language Models, LLMs) für die referenzlose Bewertung von Übersetzungen zwischen Englisch und indischen Sprachen eingesetzt werden können.
Die Autoren führen Experimente mit verschiedenen LLMs durch, um deren Fähigkeiten für die referenzlose Übersetzungsbewertung zu testen. Dabei betrachten sie sowohl den Zero-Shot-Ansatz als auch das Beispiel-basierte In-Context-Learning.
Die Ergebnisse zeigen, dass die unveränderten LLMs keine inhärenten Fähigkeiten für die Übersetzungsbewertung besitzen. Daher führen die Autoren eine Feinabstimmung (Fine-Tuning) der LLMs durch, um ihre Leistung zu verbessern.
Die feinabgestimmten LLMs, insbesondere LLaMA-2-7b und LLaMA-2-13b, erreichen eine vergleichbare oder sogar höhere Korrelation mit menschlichen Urteilen als bestehende Methoden wie COMET, BERTScore und LABSE.
Die Autoren stellen fest, dass das Feinabstimmen der LLMs für die Übersetzungsbewertung deren Leistung deutlich verbessert, während ein Multi-Task-Lernen mit Übersetzungsaufgaben keine zusätzlichen Vorteile bringt.
Stats
Die Bewertung von Übersetzungen in Englisch zu Indischen Sprachen durch unveränderte LLMs zeigt eine geringe Korrelation mit menschlichen Urteilen.
Die feinabgestimmten LLaMA-2-7b und LLaMA-2-13b Modelle erreichen eine Spearman-Korrelation von bis zu 0,53 mit menschlichen Bewertungen, was vergleichbar oder besser ist als bestehende Methoden.
Für die Sprache Telugu ist die Korrelation mit menschlichen Urteilen insgesamt niedriger, was weitere Untersuchungen erfordert.
Quotes
Keine relevanten Zitate gefunden.