核心概念
本文提出了一種名為 CORE 的訓練自由檢索增強方法,用於解決資源有限領域中的零樣本圖像分類問題,透過從大型網路資料庫中檢索相關文本信息來豐富查詢圖像和類別原型表示,從而顯著提高分類性能。
書目信息
Dall’Asen, N., Wang, Y., Fini, E., & Ricci, E. (2024). Retrieval-enriched zero-shot image classification in low-resource domains. arXiv preprint arXiv:2411.00988.
研究目標
本研究旨在探討如何在資源有限的領域中,有效地進行零樣本圖像分類。
方法
本文提出了一種名為 CORE(組合檢索增強)的訓練自由檢索增強方法。該方法透過從大型網路資料庫中檢索相關文本信息,來豐富查詢圖像和類別原型表示。具體而言,對於查詢圖像,使用預先訓練的圖像編碼器從視覺語言模型(VLM)中檢索與查詢圖像最相關的文本描述。對於每個類別,構建相應的文本提示,並使用預先訓練的文本編碼器檢索最相關的文本描述。然後,將檢索到的文本描述與原始類別提示的文本嵌入進行聚合,形成豐富的類別原型表示。最後,透過計算豐富的視覺表示與豐富的文本類別原型之間的餘弦相似度來獲得最終分類。
主要發現
實驗結果表明,CORE 在多個資源有限的數據集上,包括醫學影像、稀有植物和電路圖,均優於現有的基於合成數據生成和模型微調的最先進方法。
主要結論
CORE 是一種有效的零樣本圖像分類方法,尤其適用於資源有限的領域。透過利用檢索到的文本信息,CORE 能夠在不進行任何訓練的情況下,顯著提高分類性能。
意義
本研究為資源有限領域的零樣本圖像分類提供了一種新的解決方案,並為未來在該領域的研究提供了新的思路。
局限性和未來研究方向
儘管 CORE 取得了顯著的成果,但仍存在一些局限性。例如,CORE 的性能很大程度上取決於外部資料庫中領域信息的表示程度。此外,本研究僅關注圖像分類任務,未來可以探索將 CORE 應用於其他計算機視覺任務,例如目標檢測和圖像分割。
統計資料
在電路圖數據集中,CORE 的 top-1 準確率比最佳訓練自由方法提高了 8.07%。
在 iNaturalist 數據集中,CORE 的 top-1 準確率比最佳訓練自由方法提高了 3.00%。
在 HAM10000 數據集中,CORE 的 top-1 準確率比最佳訓練自由方法提高了 3.90%。