本文提出了SALMON,一個用於評估聲學語言模型的套件。SALMON包括兩個主要任務:
聲學一致性:評估模型是否能夠識別音頻中聲學特徵的突然變化,如說話者身份、情感、背景噪音和房間脈衝響應的變化。
聲學-語義對齊:評估模型是否能夠將聲學特徵與語義內容相匹配,如背景噪音與說話內容的相關性。
SALMON採用建模方法,即檢查模型是否將"真實"樣本評分更高。這種方法計算快速,適合大型模型的評估。
作者使用SALMON評估了多個流行的聲學語言模型,結果顯示它們在大多數任務上的表現遠低於人類水平。這突出了當前聲學感知模型的局限性,並為未來的研究提供了方向。
作者提供了易於使用的評估腳本和完整的基準測試,希望能推動聲學感知模型的發展,使其在語義建模之外,也能更好地捕捉音頻中的聲學特徵。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Gallil Maimo... ที่ arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.07437.pdfสอบถามเพิ่มเติม