Die Studie präsentiert einen Ansatz zur effizienten Erweiterung von Systemen zur gesprochenen Sprachverständnis (Spoken Language Understanding, SLU) auf neue Sprachen. Der Kern des Ansatzes ist die Nutzung von Großen Sprachmodellen (Large Language Models, LLMs) zur maschinellen Übersetzung von annotierten SLU-Trainingsdaten.
Zunächst wird der Englische Trainingsdatensatz MultiATIS++ in mehrere Sprachen übersetzt, wobei besonderer Wert auf die korrekte Übertragung der Slot-Annotationen gelegt wird. Dafür wird der EasyProject-Ansatz verwendet, bei dem die Entitäten mit HTML-ähnlichen Tags markiert werden.
Die so übersetzten Datensätze werden dann zum Training von SLU-Modellen verwendet. Die Experimente zeigen, dass dieser Ansatz den aktuellen Stand der Technik deutlich übertrifft, sowohl im Cloud-Szenario als auch beim Training von kompakten On-Device-Modellen. Im Cloud-Szenario konnte die Gesamtgenauigkeit (Overall Accuracy) von 53% auf 62,18% gesteigert werden, im On-Device-Szenario von 5,31% auf 22,06%.
Im Vergleich zu bisherigen Ansätzen, die oft zusätzliche Modelle zur Slot-Ausrichtung benötigten, ist der vorgestellte Ansatz deutlich einfacher und erfordert keine Änderungen an der Produktionsarchitektur der SLU-Systeme. Außerdem ist er unabhängig von den spezifischen Slot-Typen, da er keine Slot-Definitionen oder -Beispiele benötigt.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies