Основные понятия
提出DETECLAP方法,通過引入音視頻物體標籤預測損失來增強CAV-MAE的物體感知能力,從而提高音視頻檢索和分類的性能。
Аннотация
本文提出了DETECLAP方法,旨在通過引入物體資訊來增強現有的音視頻表示學習方法CAV-MAE。
具體來說:
- 為了避免手動標註物體標籤的成本,作者利用CLAP和YOLOv8等先進模型自動獲取音頻和視頻的物體標籤。
- 在CAV-MAE的基礎上,作者引入了音視頻物體標籤預測損失,使模型能夠預測數百個音視頻物體標籤。
- 作者探索了不同的物體標籤融合策略,包括AND操作和OR操作,發現OR操作的效果最佳。
- 在VGGSound和AudioSet20K數據集上的實驗結果表明,DETECLAP在音視頻檢索和分類任務上均優於基線CAV-MAE,取得了顯著的性能提升。
總的來說,DETECLAP通過有效地融合音視頻物體資訊,顯著增強了模型的物體感知能力,從而提高了在多模態任務上的性能。這項工作推進了多模態學習的發展。
Статистика
在VGGSound數據集上,DETECLAP (OR)在音頻到視頻檢索的Recall@10指標上較CAV-MAE提升了1.5%,在視頻到音頻檢索的Recall@10指標上提升了1.2%。
在VGGSound數據集上,DETECLAP (OR)在音視頻分類的準確率指標上較CAV-MAE提升了0.6%。
在AudioSet20K數據集上,DETECLAP (OR)在音頻到視頻檢索的Recall@10指標上較CAV-MAE提升了2.0%,在視頻到音頻檢索的Recall@10指標上提升了0.8%。
在AudioSet20K數據集上,DETECLAP (AND)在音視頻分類的mAP指標上較CAV-MAE提升了1.6%。
Цитаты
"DETECLAP通過引入音視頻物體標籤預測損失,使模型能夠預測數百個音視頻物體標籤,從而增強了物體感知能力。"
"實驗結果表明,DETECLAP在音視頻檢索和分類任務上均優於基線CAV-MAE,取得了顯著的性能提升。"