核心概念
本研究提出了一種利用輔助損失訓練機器影像編碼模型的新方法,可以提高編碼器的識別能力和模型的速率-失真性能,而無需在評估時增加任何開銷。
摘要
本研究旨在提高機器影像編碼(ICM)的效率。ICM的目標是為機器分析而非人類視覺壓縮影像。現有的ICM研究主要有兩種方法:基於任務損失的優化和基於感興趣區域(ROI)的比特分配。前者可以直接優化速率-失真性能,但當識別模型很深時優化會變得困難。後者需要在編碼器端增加額外的開銷來獲取ROI。
本研究提出了一種新的訓練方法,在訓練時在編碼器上施加輔助損失。這種方法可以幫助編碼器獲得類似ROI的識別能力,而無需在評估時增加開銷。實驗結果表明,與傳統方法相比,在物體檢測和語義分割任務中,提出的方法分別提高了27.7%和20.3%的Bjøntegaard Delta速率。通過分析比特分配圖,我們發現輔助損失可以幫助編碼器集中分配比特到對任務重要的區域。此外,我們還探討了輔助分支的位置對優化效果的影響,發現將其放在編碼器前效果最佳。
統計資料
使用輔助損失訓練的ICM模型在物體檢測任務上的Bjøntegaard Delta速率改善平均達27.7%。
使用輔助損失訓練的ICM模型在語義分割任務上的Bjøntegaard Delta速率改善平均達20.3%。
引述
"本研究提出了一種利用輔助損失訓練ICM模型的新方法,可以提高編碼器的識別能力和模型的速率-失真性能,而無需在評估時增加任何開銷。"
"實驗結果表明,與傳統方法相比,在物體檢測和語義分割任務中,提出的方法分別提高了27.7%和20.3%的Bjøntegaard Delta速率。"