Multimodales Sprachmodell SALMONN: Generische Hörfähigkeiten für große Sprachmodelle
SALMONN ist ein multimodales Sprachmodell, das Sprache, Audioinhalte und Musik direkt verarbeiten und verstehen kann, um eine Vielzahl von Aufgaben wie Spracherkennung, Übersetzung, Fragebeantworung und Bildbeschreibung zu lösen.