Alapfogalmak
本文提出了一種新的多任務音頻大型語言模型架構 - 弱編碼器混合(MoWE)。MoWE 通過補充一組相對較小的"弱"編碼器來增強基礎編碼器的特徵提取能力,從而提高模型在多個音頻任務上的性能。
Kivonat
本文提出了一種新的多任務音頻大型語言模型架構 - 弱編碼器混合(MoWE)。
MoWE 的核心思想是:
- 在基礎的"強"編碼器(如Whisper-large)之外,補充一組相對較小的"弱"編碼器(如Whisper-tiny和HuBERT)。
- 設計了一個數據無關的路由器和一個數據相關的路由器,用於選擇性地激活弱編碼器,以增強特徵提取能力。
- 在多任務訓練過程中,弱編碼器與基礎編碼器的輸出特徵被連接起來,進一步輸入到語言模型中。
實驗結果表明,MoWE 在多個音頻任務(如語音識別、情感識別、音頻問答等)上都能顯著提升性能,優於單一基礎編碼器的方法。這是因為弱編碼器能夠補充基礎編碼器在新數據集和任務上的局限性,從而增強模型的整體表現。
此外,作者還探討了不同路由策略的影響,以及使用多樣化弱編碼器的效果。結果顯示,數據相關和數據無關的路由器組合,以及包含不同類型弱編碼器(如Whisper-tiny和HuBERT)的混合方式,都能進一步提升模型性能。
總之,本文提出的MoWE方法為構建強大的多任務音頻大型語言模型提供了一種有效的解決方案。
Statisztikák
基礎Whisper-large編碼器與4個Whisper-tiny編碼器的訓練和驗證損失對比:
Whisper-large: 訓練損失0.162, 驗證損失0.672
Whisper-tiny: 訓練損失0.401, 驗證損失0.749
基礎Whisper-large編碼器與2個Whisper-tiny和2個HuBERT編碼器(含ER微調版)的訓練和驗證損失對比:
Whisper-large: 訓練損失0.162, 驗證損失0.672
Whisper-tiny: 訓練損失0.401/0.407, 驗證損失0.749/0.733
HuBERT-base: 訓練損失0.422, 驗證損失0.741
HuBERT-base-ER: 訓練損失0.407, 驗證損失0.733