核心概念
MACE 是一種用於評估音訊字幕系統的新型指標,它透過整合音訊和文字資訊來克服現有指標的局限性,從而更準確地反映人類對字幕品質的判斷。
摘要
MACE:一種用於評估音訊字幕系統的新型指標
這篇研究論文介紹了 MACE(多模態音訊字幕評估),這是一種用於評估音訊字幕系統的新型指標。
本研究旨在開發一種更全面、更能與人類判斷一致的音訊字幕評估指標,以解決現有指標忽略音訊資訊的局限性。
MACE 整合了音訊和文字資訊,透過三個主要元件來評估字幕品質:
**音訊-文字相似度:**使用對比語言-音訊預訓練模型 (CLAP) 提取音訊和字幕的嵌入向量,並計算其餘弦相似度,以評估字幕與音訊內容的相關性。
**文字-文字相似度:**計算候選字幕和參考字幕的 CLAP 文字嵌入向量之間的點積,以評估語義相似度。
**流暢度懲罰:**使用預先訓練好的 BERT 模型檢測字幕中的語法錯誤,並根據錯誤的嚴重程度對相似度分數進行懲罰。