本研究旨在提高機器影像編碼(ICM)的效率。ICM的目標是為機器分析而非人類視覺壓縮影像。現有的ICM研究主要有兩種方法:基於任務損失的優化和基於感興趣區域(ROI)的比特分配。前者可以直接優化速率-失真性能,但當識別模型很深時優化會變得困難。後者需要在編碼器端增加額外的開銷來獲取ROI。
本研究提出了一種新的訓練方法,在訓練時在編碼器上施加輔助損失。這種方法可以幫助編碼器獲得類似ROI的識別能力,而無需在評估時增加開銷。實驗結果表明,與傳統方法相比,在物體檢測和語義分割任務中,提出的方法分別提高了27.7%和20.3%的Bjøntegaard Delta速率。通過分析比特分配圖,我們發現輔助損失可以幫助編碼器集中分配比特到對任務重要的區域。此外,我們還探討了輔助分支的位置對優化效果的影響,發現將其放在編碼器前效果最佳。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kei Iino, Sh... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2402.08267.pdfDeeper Inquiries