核心概念
將視覺圖形整合到大型語言模型中可以顯著提高其在圖形推理任務中的性能,彌補了傳統方法忽略視覺模態的不足。
摘要
GITA:圖形到視覺和文本整合,用於視覺語言圖形推理
這篇研究論文介紹了一種名為 GITA 的新型端到端框架,旨在增強大型語言模型在圖形推理任務中的能力。
本研究旨在探討將視覺信息整合到基於指令的圖形推理中的效果。
本研究還旨在開發一種有效的方法,將視覺模態整合到圖形推理中。
作者提出了一個名為 GITA 的端到端框架,該框架由四個主要組成部分組成:圖形可視化器、圖形描述器、基於任務的提問器和視覺語言模型 (VLM) 推理器。
圖形可視化器負責將圖形結構渲染成定制的視覺圖像。
圖形描述器生成圖形結構的文本描述。
基於任務的提問器將當前任務的描述和要求組織成提示指令。
VLM 推理器接收視覺圖像和文本提示作為輸入,並執行視覺語言圖形推理以生成自然語言答案。
作者還構建了一個名為 GVLQA 的基於圖形的視覺語言問答數據集,用於評估和預訓練 VLM 和 LLM 的基於結構的圖形推理能力。