Die Autoren präsentieren einen Ansatz, um Großsprachmodelle (LLMs) in leistungsfähige mehrsprachige und multimodale Retrievalsysteme umzuwandeln. Dafür erweitern sie die Einbettungsschicht des LLMs, um neben Texttoken auch diskretisierte Sprachtoken zu verarbeiten. Durch kontrastives Lernen auf Sprachproben und zugehörigen Transkripten können die Modelle Sprache und Text in 102 Sprachen effektiv aufeinander abbilden.
Im Vergleich zu vorherigen Ansätzen, die separate Sprach- und Textencoder verwenden, übertrifft das vorgestellte Modell die Leistung deutlich, obwohl es nur auf 21 Sprachen trainiert wurde. Darüber hinaus zeigt das Modell Fähigkeiten im mehrsprachigen Sprach-Text-Retrieval, die durch zusätzliches Training auf maschinenübersetzten Daten weiter verbessert werden können.
Die Ergebnisse demonstrieren, dass LLMs durch die Erweiterung um Sprachverarbeitung in leistungsfähige multimodale Retrievalsysteme umgewandelt werden können, ohne dass dafür umfangreiche Sprachtrainingsdaten erforderlich sind.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問