Core Concepts
SALMONN ist ein multimodales Sprachmodell, das Sprache, Audioinhalte und Musik direkt verarbeiten und verstehen kann, um eine Vielzahl von Aufgaben wie Spracherkennung, Übersetzung, Fragebeantworung und Bildbeschreibung zu lösen.
Abstract
Der Artikel stellt SALMONN, ein multimodales Sprachmodell, vor, das in der Lage ist, verschiedene Arten von Audioinhalten wie Sprache, Geräusche und Musik direkt zu verarbeiten und zu verstehen.
SALMONN kombiniert einen vortrainierten textbasierten Großsprachmodell (LLM) mit Spracherkennungs- und Audioenkodierern in einem einzigen Modell. Durch die Integration dieser Modalitäten kann SALMONN eine Vielzahl von Aufgaben wie Spracherkennung, Übersetzung, Fragebeantworung und Bildbeschreibung lösen.
Der Schlüssel zu SALMONNs Leistungsfähigkeit ist die Verwendung eines zweistufigen Encoders, bestehend aus einem Spracherkennungsmodell und einem allgemeinen Audioerkennungsmodell. Diese Encoder extrahieren komplementäre Merkmale aus den Audioeingaben, die dann mit einem Transformer-basierten Modul mit dem LLM abgeglichen werden. Zusätzlich wird eine Low-Rank-Adaption (LoRA) des LLM verwendet, um die Ausrichtung zwischen den Modalitäten weiter zu verbessern.
Trotz dieser Architektur zeigt SALMONN ohne zusätzliches Training Tendenzen zum Überanpassen auf die Aufgaben, die im Instruktionstuning verwendet wurden. Um dies zu beheben, schlagen die Autoren ein zusätzliches Aktivierungstuning vor, bei dem das Modell auf Aufgaben mit längeren und vielfältigeren Antworten wie Geschichtenerzählen und Sprachverständnis trainiert wird. Dieses Aktivierungstuning ermöglicht es SALMONN, emergente Fähigkeiten zu entwickeln und gleichzeitig die Leistung auf den trainierten Aufgaben beizubehalten.
Insgesamt demonstriert SALMONN die Machbarkeit, KI-Systeme mit generischen Hörfähigkeiten zu entwickeln, die Sprache, Geräusche und Musik verstehen können.
Stats
"Whisper-Modell und GigaSpeech-Datensatz wurden für die Spracherkennung verwendet, mit einer Gesamtdauer von 1180 Stunden."
"AudioCaps und Clotho-Datensätze mit insgesamt 154 Stunden wurden für die automatische Audiobeschriftung verwendet."
"Für die Instruktionsschulung wurden Datensätze mit insgesamt 4400 Stunden und 2,3 Millionen Beispielen verwendet."
Quotes
"SALMONN ist das erste Modell dieser Art und kann als ein Schritt in Richtung KI mit generischen Hörfähigkeiten angesehen werden."
"Die Anwesenheit von emergenten Fähigkeiten über Modalitäten hinweg wird untersucht, und ein neuartiger Ansatz des Aktivierungstunings mit wenigen Beispielen wird vorgeschlagen, um solche Fähigkeiten zu aktivieren."