本文提出了RACC(Retrieval-Augmented MLLMs with Compressed Contexts),一個用於知識型視覺問答(KB-VQA)的高效框架。
首先,RACC利用一個凍結的超級MLLM(hyperMLLM)來學習壓縮從外部知識源檢索到的文檔,生成簡潔的軟提示。
然後,RACC設計了一個精心設計的聚合器模塊,利用問題和圖像的信息來聚合這些壓縮的提示,增強與問題和圖像相關的內容。
最後,RACC使用一組多層感知機(MLP)生成一個緊湊的調制,以適應下游凍結的基礎MLLM(baseMLLM)。通過這種方式,baseMLLM可以高效地利用檢索到的文檔中的信息。
RACC在OK-VQA數據集上達到了62.9%的最新水平,同時大幅降低了推理延遲(22.0%-59.7%)。此外,RACC還展示了廣泛的適用性,可以處理不同類型的知識源(文本和多模態文檔),並支持各種現成的MLLM。
翻譯成其他語言
從原文內容
arxiv.org
深入探究