מושגי ליבה
提出一種新的音視頻語音識別模型架構,利用雙重Conformer交互模組(DCIM)實現跨模態信息高效交換,並設計了一種預訓練策略進一步提升性能,在保持高性能的同時大幅降低了模型參數數量。
תקציר
本文提出了一種新的高效音視頻語音識別(AVSR)模型架構,核心是引入雙重Conformer交互模組(DCIM)。DCIM通過在Conformer模塊中插入適配器模塊,實現了音頻和視覺特徵的高效融合。與傳統的AVSR模型直接拼接兩種模態特徵不同,本文的模型將音頻作為主要模態,視覺作為輔助模態,大幅降低了模型的學習負擔。此外,本文還設計了一種預訓練策略,進一步提升了模型性能。實驗結果表明,與現有AVSR模型相比,本文提出的模型在參數量大幅減少的同時,在語音識別任務上也取得了顯著的性能提升。
具體來說,本文的主要貢獻包括:
- 提出了一種新的AVSR模型架構,利用DCIM實現了音頻和視覺特徵的高效融合。DCIM通過在Conformer模塊中插入適配器模塊,使得模型能夠更好地學習跨模態的依賴關係。
- 設計了一種預訓練策略,進一步提升了模型性能。預訓練包括ASR預訓練、VSR預訓練和AVSR微調三個階段,大幅降低了訓練成本。
- 實驗結果表明,與現有AVSR模型相比,本文提出的模型在參數量大幅減少的同時,在語音識別任務上也取得了顯著的性能提升。同時,本文的模型在噪聲環境下也表現出較強的魯棒性。
סטטיסטיקה
本文提出的DCIM-AVSR模型參數量為53M,相比於其他AVSR模型如AV-Hubert large(325M)和Auto-AVSR(425M)大幅減少。
在LRS2和LRS3數據集上,本文提出的DCIM-AVSR模型的Word Error Rate(WER)分別為1.95%和1.62%,優於其他AVSR模型。
在不同信噪比下,本文提出的AVSR模型相比於僅使用音頻的模型表現出更強的魯棒性。
ציטוטים
"提出一種新的AVSR模型架構,利用DCIM實現了音頻和視覺特徵的高效融合。"
"設計了一種預訓練策略,進一步提升了模型性能,大幅降低了訓練成本。"
"實驗結果表明,本文提出的模型在參數量大幅減少的同時,在語音識別任務上也取得了顯著的性能提升,同時在噪聲環境下也表現出較強的魯棒性。"