核心概念
mR$^2$AG框架透過兩種反思操作,即檢索反思和相關性反思,來增強多模態大型語言模型在基於知識的視覺問答任務中的效能。
Tao Zhang 等人於 2024 年發表論文「mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA」。
本研究旨在解決先進多模態大型語言模型 (MLLM) 在處理需要外部知識的視覺問答 (VQA) 任務(例如 INFOSEEK 和 Encyclopedic-VQA)時遇到的挑戰,這些挑戰源於其有限且靜態的知識範圍,並提出一個名為多模態檢索-反思-增強生成 (mR$^2$AG) 的新型通用框架。