核心概念
扩散模型可以作为大型语言模型的"眼睛",通过生成性反馈来校正图像编码器的语义偏差,从而增强多模态模型的鲁棒性和减少视觉幻觉。
摘要
本文提出了一种名为DEEM的方法,利用扩散模型作为大型语言模型的"眼睛",以增强多模态模型的图像感知能力。
具体来说,DEEM采用端到端的交织文本-图像生成建模方法,将扩散模型与大型语言模型相结合。扩散模型用于校正图像编码器输出的语义信息,从而减少视觉幻觉并提高模型对分布外数据的鲁棒性。这种方法不需要额外的训练模块,也不需要更多的训练参数。
为了全面评估DEEM的性能,作者构建了一个新的基准测试RobustVQA,涵盖了自然对抗样本和分布外数据。实验结果表明,与当前最先进的交织文本-图像生成模型相比,DEEM在视觉鲁棒性、视觉幻觉缓解和基础视觉感知能力方面都有显著提升,同时使用更小规模的图像编码器和语言模型,以及更少的预训练数据。
此外,DEEM在经过监督微调后,在多种多模态任务(如视觉问答、区域级图像字幕和文本到图像生成)中也取得了竞争性的结果。
统计
与当前最先进的交织文本-图像生成模型相比,DEEM在RobustVQA基准测试上平均提高9.4%。
DEEM在POPE基准测试上平均提高12.8%,在MMVP基准测试上平均提高6.5%。
DEEM使用的图像编码器参数只有122M,而基线模型使用的是427M参数的CLIP-ViT-L。
DEEM使用的语言模型是Vicuna 7B,而基线模型使用的是Vicuna 13B。
DEEM使用的预训练数据量只有基线模型的10%。
引用
"扩散模型可以作为大型语言模型的'眼睛',通过生成性反馈来校正图像编码器的语义偏差,从而增强多模态模型的鲁棒性和减少视觉幻觉。"
"DEEM不需要额外的训练模块,也不需要更多的训练参数。"
"DEEM在视觉鲁棒性、视觉幻觉缓解和基础视觉感知能力方面都有显著提升,同时使用更小规模的图像编码器和语言模型,以及更少的预训练数据。"