本文提出了一種名為 CapS-Adapter 的新方法,透過構建基於圖說的支持集 (CapS) 並結合多模態適配器 (M-Adapter),在零樣本分類任務中顯著提升了視覺語言模型的性能。
本文提出了一種名為 CORE 的訓練自由檢索增強方法,用於解決資源有限領域中的零樣本圖像分類問題,透過從大型網路資料庫中檢索相關文本信息來豐富查詢圖像和類別原型表示,從而顯著提高分類性能。
此研究提出了一種利用多模態大型語言模型增強零樣本圖像分類的新方法,透過生成圖像描述和初始預測,並將其與圖像特徵融合,以提高分類準確度。