核心概念
本文提出了一種名為 GaB 的無需資料的持續學習方法,利用視覺語言模型 (VLM) 的語言生成能力生成偽重播資料,並透過平衡策略解決生成問題偏差,從而在不儲存過去資料的情況下有效地應對持續視覺問答任務。
摘要
論文資訊
- 標題:一種持續學習的視覺語言模型:無需資料的持續視覺問答生成與平衡方法
- 作者:Deepayan Das, Davide Talon, Massimiliano Mancini, Yiming Wang, Elisa Ricci
研究目標
本研究旨在解決持續學習視覺問答 (VQACL) 中的災難性遺忘問題,特別是在無法取得過去任務資料的情況下,如何有效地訓練模型。
方法
本研究提出了一種名為 GaB 的無需資料的持續學習方法,其核心概念如下:
- 偽重播資料生成: GaB 利用 VLM 的語言生成能力,根據當前任務的圖像生成過去任務的偽問題-答案對,模擬過去任務的資料分佈。
- 偽重播資料平衡: 針對生成的問題類型分佈可能偏向於較常見的問題類型,GaB 引入平衡模組,透過分析問題類型元統計或無監督聚類方法,調整生成資料分佈,使其更接近真實資料分佈。
- 基於偽重播資料的持續學習: GaB 將生成的偽重播資料與當前任務資料結合,訓練 VQA 模型,有效減輕災難性遺忘問題。
主要發現
- 在 VQACL-VQAv2 和 CLOVE-function 等基準資料集上,GaB 在所有無需資料的方法中取得了最佳效能,甚至超越了一些需要存取過去資料的方法。
- 與基於分類器的方法相比,基於聚類的平衡策略在較大的緩衝區大小下表現更出色,顯示出其在資料量較大時的擴展性。
- 在生成過程中加入問題類型條件限制反而會降低效能,因為強制模型生成與圖像不相關的問題類型會導致重播緩衝區的雜訊增加。
- 使用當前任務圖像生成偽重播資料比使用過去任務圖像更有效,因為前者提供了更豐富的上下文關聯性,有助於模型更好地整合新舊知識。
結論
GaB 為 VQACL 提供了一種有效的無需資料的解決方案,透過利用 VLM 的生成能力和創新的平衡策略,在不儲存過去資料的情況下,有效地減輕了災難性遺忘問題,並在多個基準測試中展現出優異的效能。
未來研究方向
- 改善生成資料的品質,例如減少幻覺和自動化品質控管。
- 研究更精確的平衡策略,以更好地處理複雜和多樣化的問題類型。
- 將 GaB 應用於其他持續學習任務,例如圖像分類和目標檢測。
統計資料
在 VQACL-VQAv2 資料集中,"what kind" 類型的問題佔真實資料的 55.1%,而 "what type" 類型的問題佔 44.9%。
在生成的資料中,"what kind" 類型的問題比例上升至 90.94%,而 "what type" 類型的問題比例則大幅下降至 9.06%。
GaB-clustering 在 VQACL-VQAv2 資料集上的平均效能 (AP) 為 48.40,平均遺忘率 (AF) 為 1.40。
GaB-classifier 在 VQACL-VQAv2 資料集上的平均效能 (AP) 為 47.65,平均遺忘率 (AF) 為 3.61。
GaB-classifier 在 CLOVE-function 資料集上的平均效能 (AP) 為 38.34,平均遺忘率 (AF) 為 2.85。
GaB-clustering 在 CLOVE-function 資料集上的平均效能 (AP) 為 36.57,平均遺忘率 (AF) 為 4.61。
引述
"Generated data might not reflect the original question-answer distribution and concentrate on most present type of questions/answers, hindering the model generalization capabilities."
"This skew illustrates the potential for substantial shift in question generation, underscoring the need for mechanisms to ensure a more uniform distribution of question types to enhance model robustness."
"We hypothesize that generating QA pairs on current task images provides richer contextual relevance for the model, akin to augmentation."