本文提出了一個通用的X-Prompt框架,用於解決跨模態視頻物體分割任務。
首先,作者訓練了一個基於RGB的視頻物體分割基礎模型,具有強大的分割能力和泛化性。
然後,X-Prompt框架利用額外的X模態(如熱成像、深度、事件)作為提示,來適應基礎模型,實現各種跨模態視頻物體分割任務。
具體來說,作者提出了Multi-modal Visual Prompter,將跨模態信息編碼到視覺提示中,以指導基礎模型進行精確的物體分割。同時,作者還提出了Multi-modal Adaptation Experts,在基礎模型的各個變換層中引入可插拔的模態專家,在不損害基礎模型泛化能力的情況下,學習新模態的特定知識。
實驗結果表明,X-Prompt框架在RGB-T、RGB-D和RGB-E三種跨模態視頻物體分割任務上均取得了最佳性能,顯著優於現有方法。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies