Core Concepts
Der Einbezug zusätzlicher lexikalischer Informationen in den jüngsten Retrieve-and-Rank-Ansatz sollte die Lexikoninduktion verbessern.
Abstract
Der Artikel untersucht die Herausforderungen der zweisprachigen Lexikoninduktion (BLI) und schlägt einen neuen Ansatz vor, der lexikalische Merkmale wie Worthäufigkeit und Wortart in den Prozess der Kandidatenauswahl und -bewertung integriert.
Die Autoren argumentieren, dass die Hubness-Problematik, bei der Wörter in der Zielsprache dicht um Wörter in der Quellsprache gruppiert sind und schwierig zu alignieren sind, durch den Einbezug dieser zusätzlichen lexikalischen Informationen adressiert werden kann.
Sie zeigen, dass ihr vorgeschlagener Ansatz, Lexical-Feature Boosted BLI (LFBB), die bisherigen State-of-the-Art-Ergebnisse auf dem XLING-Benchmark um durchschnittlich 2% verbessert. Die Leistungssteigerung ist besonders ausgeprägt in Sprachpaaren mit geringen Ressourcen.
Die Autoren führen eine detaillierte Fehleranalyse durch und zeigen, wie die lexikalischen Merkmale dazu beitragen, die korrekten Übersetzungskandidaten besser zu identifizieren. Insbesondere Worthäufigkeit und Wortart erweisen sich als nützliche Zusatzinformationen, um die Hubness-Problematik zu adressieren.
Stats
Die durchschnittliche absolute Differenz der Worthäufigkeit zwischen Quell- und Zielwort ist bei den Vorhersagen des LFBB-Modells geringer als bei den Fehlern des XLM-R-Modells.
Die Spearman-Rangkorrelation der Worthäufigkeiten zwischen Sprachen ist für Nomen und Eigennamen am höchsten, für Verben am niedrigsten.
Quotes
"Wir argumentieren, dass der Einbezug zusätzlicher lexikalischer Informationen in den jüngsten Retrieve-and-Rank-Ansatz die Lexikoninduktion verbessern sollte."
"Unsere Methode, Lexical-Feature Boosted BLI (LFBB), erzielt verbesserte Ergebnisse selbst ohne den zusätzlichen Schritt der linearen Kombination mit den Ähnlichkeitswerten des Basismodells."