Основні поняття
Große Sprachmodelle (LLMs) können die Qualität von Übersetzungen durch Satz- und Dokumenten-basierte Nachbearbeitung deutlich verbessern, insbesondere für Übersetzungen aus Domänen, die sich vom Trainingsdatensatz unterscheiden.
Анотація
Die Studie untersucht die Verwendung von großen Sprachmodellen (LLMs) zur Verbesserung der maschinellen Übersetzung. Zunächst werden verschiedene Ansätze wie In-Context-Learning und feines Finetuning mit LoRA getestet, um LLMs direkt für die Übersetzungsaufgabe zu verwenden. Die Ergebnisse zeigen jedoch, dass diese Methoden nicht optimal sind und sogar zu einer Verschlechterung der Übersetzungsqualität führen können.
Um die Stärken der LLMs besser zu nutzen, schlagen die Autoren stattdessen einen modularen Ansatz vor, bei dem die LLMs als Automatic Post-Editors (APE) eingesetzt werden, um die Ausgaben von Neuronalen Maschinellen Übersetzungssystemen (NMT) zu verbessern. Dieser Ansatz bietet mehrere Vorteile:
- Modularität: Der NMT-Teil und der LLM-APE-Teil können unabhängig voneinander optimiert werden.
- Kontextverständnis: Die LLMs können dank ihrer Fähigkeit, lange Sequenzen zu verarbeiten, die Kohärenz und Konsistenz der Übersetzungen auf Dokumentenebene verbessern.
- Robustheit: Die LLM-APE-Modelle zeigen eine hohe Leistungsfähigkeit auch für Testdaten aus anderen Domänen als dem Trainingsdatensatz.
Darüber hinaus wird ein Szenario für iteratives manuelles Nachbearbeiten vorgestellt, bei dem die vom Benutzer korrigierten Übersetzungen als Kontext für die Verbesserung nachfolgender Übersetzungen genutzt werden.
Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz zu deutlichen Verbesserungen sowohl auf Satz- als auch auf Dokumentenebene führt. Insbesondere erreicht das Dokumenten-APE-Modell einen Spitzenstand von 88,7% Genauigkeit bei der Auflösung von Pronomen-Mehrdeutigkeiten, was die Leistungsfähigkeit des Ansatzes unterstreicht.
Статистика
Die Übersetzungsqualität des △LM-Modells (BLEU 30,45, ChrF2 57,0, COMET 0,8179) ist deutlich höher als die des Llama2-Modells, das nur für die Übersetzung finegetuned wurde (BLEU 28,92, ChrF2 55,9, COMET 0,7664).
Das Llama2-Modell, das als Automatic Post-Editor (APE) verwendet wird, erzielt bessere Ergebnisse (BLEU 31,71, ChrF2 58,3, COMET 0,833) als das △LM-Modell allein.
Auf dem WMT21 News-Testset verbessert das Llama2-APE-Modell die Übersetzungsqualität des △LM-Modells deutlich (BLEU von 21,53 auf 25,16).
Auf dem ACL Dev-Testset steigert das Llama2-APE-Modell die BLEU-Punktzahl von 31,36 auf 36,0.
Цитати
"Große Sprachmodelle (LLMs) haben in verschiedenen Aufgaben der Verarbeitung natürlicher Sprache beträchtliche Erfolge erzielt, haben aber noch nicht Spitzenleistungen in der Neuronalen Maschinellen Übersetzung (NMT) erreicht."
"Um diese Fähigkeiten zu nutzen, untersuchen wir den Einsatz von LLMs für MT und erforschen neueste parametereffiziente Finetuning-Techniken."
"Wir zeigen, dass die Nutzung von Low-Rank-Adapter-Finetuning für APE zu signifikanten Verbesserungen sowohl auf Satz- als auch auf Dokumentenebene führen kann, während es sich auch auf Daten aus anderen Domänen verallgemeinern lässt."