本報告提出了一種改進的時間聲音定位(TSL)任務方法。TSL任務旨在根據預定義的聲音類別,定位和分類視頻中發生的聲音事件。
採用Actionformer作為基礎模型,融合多尺度特徵表示和局部自注意力機制。使用輕量級解碼器對個別時刻進行分類並估計相應的聲音邊界。
提取視覺特徵:使用fine-tuned UMT-Large模型和VideoMAE-Large模型。
提取音頻特徵:使用BEATS模型和兩個CAV-MAE模型變體(分別在AudioSet和VGGSound上fine-tuned)。將三種模型的音頻特徵拼接,形成更豐富的音頻表示。
將視頻和音頻特徵融合,形成強大的多模態輸入。
使用Weighted Boxes Fusion(WBF)對最終結果進行後處理。
實驗結果表明,增強音頻特徵可以顯著提高整體性能,達到0.4925的測試集mAP,在排行榜上名列第一。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haowei Gu, W... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19595.pdfYêu cầu sâu hơn