這篇研究論文提出了一種名為 SIRI 的新型多代理協作框架,旨在提升視覺語言模型 (VLM) 在視覺問答 (VQA) 任務中的效能。SIRI 模擬人類自上而下的推理過程,透過引入三個代理(Seeker、Responder 和 Integrator)之間的互動來實現。
Responder 代理基於 VLM,負責處理給定的圖像和問題,並生成候選答案和圖像描述。
Seeker 代理基於大型語言模型 (LLM),利用 Responder 代理提供的候選答案和圖像描述,生成與問題相關的子問題。接著,Seeker 代理會透過 Responder 代理獲取這些子問題的候選答案,並利用 LLM 生成包含子問題與問題之間關係的假設及其置信度分數。最後,Seeker 代理會構建一個多視角知識庫 (MVKB),其中包含這些假設及其置信度。
Integrator 代理利用 Seeker 代理構建的 MVKB,從候選答案中選出最終答案。它會評估每個假設及其置信度,並透過 Responder 代理獲得更精確的答案。Integrator 代理採用基於分數的加權投票機制,將每個假設生成的答案與其對應的子問題答案置信度配對,從而選出最終答案。
在 ScienceQA、A-OKVQA、VQA-RAD 和 Winoground 等多個 VQA 數據集上的實驗結果表明,SIRI 在零樣本 VQA 任務上優於現有的 VLM 方法,包括單步 VQA 方法和基於問題分解的 VQA 方法。
SIRI 框架透過模擬人類自上而下的推理過程,有效地提升了 VLM 在 VQA 任務中的效能,並為 VQA 任務提供了可解釋性。
翻譯成其他語言
從原文內容
arxiv.org
深入探究