核心概念
提出一個名為RACC的框架,能夠以高效的方式利用外部知識源來增強多模態大型語言模型(MLLM)在知識型視覺問答(KB-VQA)任務上的表現。
摘要
本文提出了RACC(Retrieval-Augmented MLLMs with Compressed Contexts),一個用於知識型視覺問答(KB-VQA)的高效框架。
首先,RACC利用一個凍結的超級MLLM(hyperMLLM)來學習壓縮從外部知識源檢索到的文檔,生成簡潔的軟提示。
然後,RACC設計了一個精心設計的聚合器模塊,利用問題和圖像的信息來聚合這些壓縮的提示,增強與問題和圖像相關的內容。
最後,RACC使用一組多層感知機(MLP)生成一個緊湊的調制,以適應下游凍結的基礎MLLM(baseMLLM)。通過這種方式,baseMLLM可以高效地利用檢索到的文檔中的信息。
RACC在OK-VQA數據集上達到了62.9%的最新水平,同時大幅降低了推理延遲(22.0%-59.7%)。此外,RACC還展示了廣泛的適用性,可以處理不同類型的知識源(文本和多模態文檔),並支持各種現成的MLLM。
統計資料
與RAVQA-v2相比,RACC可以節省22.0%-59.7%的推理延遲。
與RAVQA-v2相比,RACC可以節省91.0%的磁盤空間。