本文提出了一种名为DEEM的方法,利用扩散模型作为大型语言模型的"眼睛",以增强多模态模型的图像感知能力。
具体来说,DEEM采用端到端的交织文本-图像生成建模方法,将扩散模型与大型语言模型相结合。扩散模型用于校正图像编码器输出的语义信息,从而减少视觉幻觉并提高模型对分布外数据的鲁棒性。这种方法不需要额外的训练模块,也不需要更多的训练参数。
为了全面评估DEEM的性能,作者构建了一个新的基准测试RobustVQA,涵盖了自然对抗样本和分布外数据。实验结果表明,与当前最先进的交织文本-图像生成模型相比,DEEM在视觉鲁棒性、视觉幻觉缓解和基础视觉感知能力方面都有显著提升,同时使用更小规模的图像编码器和语言模型,以及更少的预训练数据。
此外,DEEM在经过监督微调后,在多种多模态任务(如视觉问答、区域级图像字幕和文本到图像生成)中也取得了竞争性的结果。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Run Luo, Yun... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2405.15232.pdfDeeper Inquiries