Core Concepts
本論文では、大規模言語モデルにスピーチ、音響イベント、音楽の3つの基本的な音声入力を直接処理・理解する能力を持たせたSALMONNモデルを提案する。
Abstract
本論文では、大規模言語モデル(LLM)にスピーチ、音響イベント、音楽の3つの基本的な音声入力を直接処理・理解する能力を持たせたSALMONNモデルを提案している。
SALMONNは以下の特徴を持つ:
スピーチエンコーダとBEATs音響エンコーダの2つのエンコーダを統合し、音声と非音声の情報を補完的に処理できる。
Window-level Q-Formerを用いて可変長の音声入力をLLMの固定長入力に変換し、高い時間分解能を実現する。
LoRAアダプタを用いてLLMの入出力空間を整合させ、音声・音響・音楽タスクの性能を向上させる。
SALMONNは以下の3段階の訓練方法を用いる:
事前学習: 音声認識とオーディオキャプショニングのデータを使ってWindow-level Q-FormerとLoRAを事前学習する。
教示調整: 音声、音響、音楽の各種タスクのデータを使って教示調整を行う。
活性化調整: 教示調整後にタスク過適合の問題を解決するため、ストーリー生成などの新しいタスクでさらに調整を行う。
実験の結果、SALMONNは音声認識、音声翻訳、音響キャプショニングなどの教示調整タスクで高い性能を示すだけでなく、未訓練の音声NLPタスクや音声・音響・音楽の複合的な理解タスクでも優れた性能を発揮することが示された。これにより、SALMONNは汎用的な聴覚能力を持つAIシステムの実現に向けた一歩となることが期待される。
Stats
音声認識の誤り率は、LibriSpeech test-clean/test-other、GigaSpeech testで2.1%、4.9%、9.1%。
英中音声翻訳のBLEU4スコアは34.4。
音響キャプショニングのMETEOR/SPIDERスコアは25.6/47.6。
Quotes
"SALMONN enables the LLM to directly process and understand general audio inputs and achieve competitive performances on a number of speech and audio tasks used in training, such as automatic speech recognition and translation, auditory-information-based question answering, emotion recognition, speaker verification, and music and audio captioning etc."
"SALMONN also has a diverse set of emergent abilities unseen in the training, which includes but is not limited to speech translation to untrained languages, speech-based slot filling, spoken-query-based question answering, audio-based storytelling, and speech audio co-reasoning etc."