核心概念
本文提出了一種名為 ArcSin 的新型自適應雜訊注入方法,用於改善僅憑文字描述訓練的視覺模型效能,透過在文字特徵中注入可控雜訊,縮小文字與圖像模態之間的差距,並提升模型的泛化能力。
摘要
論文概述
本論文介紹了一種名為 ArcSin 的新型自適應雜訊注入技術,旨在提升僅使用文字資料訓練的視覺模型效能。該方法透過模擬視覺訓練,無需圖像標籤配對,有效降低成本,適用於短期需求、輔助工具或初步篩選等對準確度要求適中的應用場景。
研究背景
訓練視覺模型通常需要大量的圖像資料集和人工標註,成本高昂且耗時。語言驅動的視覺訓練提供了一種替代方案,利用領域專家或大型語言模型(例如 ChatGPT、LLaMA)生成的基於文字的場景進行訓練。然而,圖像和文字表徵之間的領域差距仍然是一項關鍵挑戰,限制了僅依賴文字驅動訓練的模型效能。
方法介紹
ArcSin 基於特徵值優化雜訊注入,採用自適應方法,與透過對比損失塑造的特徵的基本性質相一致。其主要貢獻包括:
- 自適應範圍雜訊: 根據相似度閾值和特徵大小調整雜訊注入,確保內容完整性的同時,使特徵空間更加多樣化,從而實現更好的領域泛化。
- 注入池策略: 建立雜訊注入池,在不影響與原始特徵相似性的情況下,擴大注入雜訊的幅度,有效提升跨領域泛化能力。
- 相似度閾值控制注入: 採用預定義的相似度閾值,控制雜訊注入過程中與原始特徵空間的偏離程度,確保內容保真度的同時,提供足夠的變異性以實現穩健的領域泛化。
實驗結果
在圖像描述生成、視覺問答和視覺推理等多項視覺語言任務上的實驗結果表明,ArcSin 在多個指標上均優於現有方法,證明了其在縮小模態差距和提升模型效能方面的有效性。
總結
ArcSin 為語言驅動的視覺任務提供了一種有效的解決方案,透過自適應雜訊注入,成功縮小了文字和視覺模態之間的差距,並在多項任務中展現出優於現有方法的效能。
統計資料
在 S-Cap 和 M-Cap 任務中,ArcSin 相較於先前最先進的方法 CLOSE,CIDEr 分數分別提升了 1.9 和 1.1 分。
在 VQA、VQA-E 和 VE 任務中,ArcSin 的準確率分別提升了 0.5 個百分點、1.4 個百分點和 1.4 個百分點。
與使用圖像訓練模型的上限相比,ArcSin 在 S-Cap 和 M-Cap 任務中的 CIDEr 分數分別提升了 1.9 和 1.1 分,在 VQA、VQA-E 和 VE 任務中的準確率分別提升了 0.5 個百分點、1.4 個百分點和 1.4 個百分點。
引述
“訓練視覺模型通常需要大量的圖像資料集和人工標註,成本高昂且耗時。”
“語言驅動的視覺訓練提供了一種‘免費午餐’的替代方案,利用領域專家或大型語言模型(例如 ChatGPT [28]、LLaMA [37])生成的基於文字的場景進行訓練。”
“我們的經驗結果表明,這些模型在效能方面與使用圖像訓練的模型不相上下。”