核心概念
本文提出了一種名為 ProLIP 的新型視覺語言模型,該模型採用機率嵌入和新穎的損失函數來捕捉圖像-文本關係中的固有不確定性,從而提高零樣本分類性能並增強對數據集層次結構的理解。
本文介紹了一種名為 ProLIP 的新型視覺語言模型 (VLM),該模型採用機率嵌入來解決傳統確定性嵌入的局限性。傳統模型假設圖像和文本之間存在一對一的對應關係,而 ProLIP 則認識到現實世界關係中固有的多對多性質。
ProLIP 引入了一個「不確定性標記」([UNC]),可以有效地估計不確定性,而無需額外的參數。此外,它還採用了一種新穎的包含損失函數,用於強化圖像-文本對之間以及原始輸入和遮罩輸入之間的分佈包含關係。
通過在包含十億級圖像-文本對的數據集上進行預訓練,ProLIP 展現出強大的零樣本能力,例如使用 ViT-B/16 骨幹網絡在 ImageNet 零樣本分類任務中達到了 74.6% 的準確率。實驗結果表明,ProLIP 不僅在零樣本分類任務中表現出色,而且還提供了對輸入數據不確定性的額外理解維度,突出了不確定性建模在視覺語言應用中的潛力。
機率嵌入: ProLIP 將輸入映射到隨機變量,而不是固定向量,從而捕捉到現實世界圖像-文本關係中的固有不確定性。
不確定性標記: ProLIP 引入了一個「不確定性標記」([UNC]),可以有效地估計不確定性,而無需額外的參數,從而簡化了模型架構。
包含損失函數: ProLIP 採用了一種新穎的包含損失函數,用於強化圖像-文本對之間以及原始輸入和遮罩輸入之間的分佈包含關係,從而提高了嵌入的可解釋性。
零樣本能力: ProLIP 在大型圖像-文本數據集上進行預訓練,展現出強大的零樣本能力,例如在 ImageNet 零樣本分類任務中達到了 74.6% 的準確率。
不確定性分析: ProLIP 提供了對輸入數據不確定性的額外理解維度,例如,較短的文本往往具有更高的不確定性,而更通用的文本/圖像往往包含更具體的文本/圖像。