Die Autoren präsentieren einen Ansatz, um Großsprachmodelle (LLMs) in leistungsfähige mehrsprachige und multimodale Retrievalsysteme umzuwandeln. Dafür erweitern sie die Einbettungsschicht des LLMs, um neben Texttoken auch diskretisierte Sprachtoken zu verarbeiten. Durch kontrastives Lernen auf Sprachproben und zugehörigen Transkripten können die Modelle Sprache und Text in 102 Sprachen effektiv aufeinander abbilden.
Im Vergleich zu vorherigen Ansätzen, die separate Sprach- und Textencoder verwenden, übertrifft das vorgestellte Modell die Leistung deutlich, obwohl es nur auf 21 Sprachen trainiert wurde. Darüber hinaus zeigt das Modell Fähigkeiten im mehrsprachigen Sprach-Text-Retrieval, die durch zusätzliches Training auf maschinenübersetzten Daten weiter verbessert werden können.
Die Ergebnisse demonstrieren, dass LLMs durch die Erweiterung um Sprachverarbeitung in leistungsfähige multimodale Retrievalsysteme umgewandelt werden können, ohne dass dafür umfangreiche Sprachtrainingsdaten erforderlich sind.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Frank Palma ... at arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01616.pdfDeeper Inquiries