Основные понятия
本文提出了一種新的音視頻分割訓練方法 - 類條件提示機(CPM)。CPM 通過結合類無關查詢和從迭代更新的生成模型中採樣的類條件查詢,來提高雙邊匹配的穩定性和提升跨模態注意力的有效性。
Аннотация
本文提出了一種新的音視頻分割訓練方法 - 類條件提示機(CPM)。
CPM 的主要創新點包括:
-
為了提高雙邊匹配的穩定性,CPM 提出了一種新的訓練策略,結合了類無關查詢和從迭代更新的生成模型中採樣的類條件查詢。
-
為了提升跨模態注意力的有效性,CPM 提出了新的學習目標,包括:
- 音頻條件提示(ACP):利用類條件查詢重建原始頻譜圖,以去除背景噪音。
- 視覺條件提示(VCP):利用從生成模型採樣的類條件查詢探索圖像特徵圖中的相應語義。
- 基於提示的音視頻對比學習(PCL):利用類特定查詢密集約束跨模態表示。
實驗結果表明,CPM 在多個音視頻分割基準測試中取得了最佳的分割精度。
Статистика
我們的方法在AVSBench-Semantics (SS)數據集上的mIoU提高了4.80%,在AVSBench-Semantics (MS)數據集上提高了4.50%,在整個AVSBench-Semantics數據集上提高了6.50%。
我們的方法在VPO (SS)數據集上的mIoU提高了4.78%,在VPO (MS)數據集上提高了1.60%。
Цитаты
"本文提出了一種新的音視頻分割訓練方法 - 類條件提示機(CPM)。"
"CPM 通過結合類無關查詢和從迭代更新的生成模型中採樣的類條件查詢,來提高雙邊匹配的穩定性和提升跨模態注意力的有效性。"
"實驗結果表明,CPM 在多個音視頻分割基準測試中取得了最佳的分割精度。"