核心概念
提出了一種名為多路徑聚合(MPA)的統一圖像編碼方法,可靈活支持人類感知和機器視覺任務,並實現無縫轉換。MPA通過預測器根據不同任務的特徵重要性,將潛在特徵非均勻地分配到任務特定的路徑中,最大化共享特徵的效用,同時保留任務特定特徵以進行後續細化。利用特徵相關性,我們開發了一種兩階段優化策略,通過對通用特徵進行部分參數微調來緩解多任務性能下降,避免了整個模型的大規模優化。
摘要
本文提出了一種名為多路徑聚合(MPA)的統一圖像編碼方法,用於支持人機協作視覺任務。
-
現有的圖像編碼方法通常依賴於多個任務特定的編碼-解碼對,導致參數和比特率使用開銷較高,或在統一表示下的多目標優化面臨挑戰,無法同時實現性能和效率。
-
MPA在現有編碼模型中集成了多路徑聚合機制。它使用預測器根據不同任務的特徵重要性,將潛在特徵非均勻地分配到任務特定的路徑中,最大化共享特徵的效用,同時保留任務特定特徵以進行後續細化。
-
利用特徵相關性,我們開發了一種兩階段優化策略,通過對通用特徵進行部分參數微調來緩解多任務性能下降,避免了整個模型的大規模優化。
-
實驗結果表明,MPA在人類感知和機器視覺任務上的性能均與最先進的方法相當,並且只需微調1.89%的參數即可實現。此外,MPA支持在統一模型中無縫切換人機視覺任務,實現了任務可控的解釋。
統計資料
使用MPA的統一模型只需微調1.89%的參數即可實現與專門優化模型相當的性能。
在ImageNet-1K分類任務上,MPA的Top-1準確率達到77.16%,接近完全微調模型的水平。
在ADE20K語義分割任務上,MPA的mIoU達到37.76%,也接近完全微調模型的性能。
引述
"MPA通過預測器根據不同任務的特徵重要性,將潛在特徵非均勻地分配到任務特定的路徑中,最大化共享特徵的效用,同時保留任務特定特徵以進行後續細化。"
"利用特徵相關性,我們開發了一種兩階段優化策略,通過對通用特徵進行部分參數微調來緩解多任務性能下降,避免了整個模型的大規模優化。"