核心概念
提出了一個通用的X-Prompt框架,利用額外的X模態作為提示來適應基礎模型,實現了各種跨模態視頻物體分割任務的高性能。
摘要
本文提出了一個通用的X-Prompt框架,用於解決跨模態視頻物體分割任務。
首先,作者訓練了一個基於RGB的視頻物體分割基礎模型,具有強大的分割能力和泛化性。
然後,X-Prompt框架利用額外的X模態(如熱成像、深度、事件)作為提示,來適應基礎模型,實現各種跨模態視頻物體分割任務。
具體來說,作者提出了Multi-modal Visual Prompter,將跨模態信息編碼到視覺提示中,以指導基礎模型進行精確的物體分割。同時,作者還提出了Multi-modal Adaptation Experts,在基礎模型的各個變換層中引入可插拔的模態專家,在不損害基礎模型泛化能力的情況下,學習新模態的特定知識。
實驗結果表明,X-Prompt框架在RGB-T、RGB-D和RGB-E三種跨模態視頻物體分割任務上均取得了最佳性能,顯著優於現有方法。
統計資料
在VisT300基準測試中,X-Prompt的J&F得分達到84.2%,優於之前最佳方法7.4個百分點。
在VT-UAV基準測試中,X-Prompt的J&F得分達到87.3%,優於之前最佳方法10.6個百分點。
在ARKitTrack基準測試中,X-Prompt的J&F得分達到82.1%,優於之前最佳方法10.2個百分點。
在VisEvent-VOS基準測試中,X-Prompt的J&F得分達到67.1%,優於之前最佳方法8.5個百分點。
引述
"提出了一個通用的X-Prompt框架,利用額外的X模態作為提示來適應基礎模型,實現了各種跨模態視頻物體分割任務的高性能。"
"Multi-modal Visual Prompter將跨模態信息編碼到視覺提示中,以指導基礎模型進行精確的物體分割。"
"Multi-modal Adaptation Experts在基礎模型的各個變換層中引入可插拔的模態專家,在不損害基礎模型泛化能力的情況下,學習新模態的特定知識。"