本文提出了HELPD框架,旨在緩解大型視覺語言模型(LVLM)中的幻覺問題。
首先,作者指出現有方法過於關注於判斷生成的物體是否存在於圖像中,忽略了物體與整個句子語義之間的關聯。為此,作者提出了階層式反饋學習方法,在物體級別和句子語義級別同時檢測幻覺,並將反饋用於模型的參數更新。
其次,作者分析了LVLM在解碼過程中的注意力矩陣,發現模型過度依賴文本信息,忽略了視覺信息。因此,作者提出了視覺增強懲罰解碼策略,將視覺注意力納入懲罰分數的計算中,增強視覺信息在解碼過程中的影響。
實驗結果表明,HELPD框架能夠有效緩解不同LVLM模型的幻覺問題,同時提高了它們的文本生成質量。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询