核心概念
本文提出了SALMON,一個用於評估聲學語言模型在各種聲學特徵上的能力的套件。SALMON包括兩個主要任務:聲學一致性和聲學-語義對齊,涵蓋了多個聲學方面,如說話者身份、情感、背景噪音和房間脈衝響應。通過建模方法,SALMON可以快速評估模型在這些任務上的表現。
摘要
本文提出了SALMON,一個用於評估聲學語言模型的套件。SALMON包括兩個主要任務:
聲學一致性:評估模型是否能夠識別音頻中聲學特徵的突然變化,如說話者身份、情感、背景噪音和房間脈衝響應的變化。
聲學-語義對齊:評估模型是否能夠將聲學特徵與語義內容相匹配,如背景噪音與說話內容的相關性。
SALMON採用建模方法,即檢查模型是否將"真實"樣本評分更高。這種方法計算快速,適合大型模型的評估。
作者使用SALMON評估了多個流行的聲學語言模型,結果顯示它們在大多數任務上的表現遠低於人類水平。這突出了當前聲學感知模型的局限性,並為未來的研究提供了方向。
作者提供了易於使用的評估腳本和完整的基準測試,希望能推動聲學感知模型的發展,使其在語義建模之外,也能更好地捕捉音頻中的聲學特徵。
統計資料
人類在大多數任務上的表現超過90%,而最好的模型在情感一致性、背景一致性和房間一致性任務上的表現僅為60-65%。
在性別一致性任務上,最好的模型(pGSLM)達到88.5%,但仍低於人類的98.6%。
在說話者一致性任務上,pGSLM達到83.0%,而非表達式的TWIST模型即使增加了近兩個數量級的參數也無法超越。
級聯的ASR和文本語言模型在所有任務上的表現基本上都是隨機的。