핵심 개념
그래프 구조를 시각적 이미지로 변환하여 언어 모델의 그래프 추론 능력을 향상시키는 비전-언어 통합 프레임워크인 GITA를 소개합니다.
초록
GITA: 비전-언어 그래프 추론을 위한 그래프에서 시각 및 텍스트로의 통합
본 연구는 그래프 구조 정보를 시각적 이미지(시각적 그래프)로 표현하여 언어 모델의 그래프 추론 능력을 향상시키는 것을 목표로 합니다. 이를 위해 시각적 그래프를 일반적인 그래프 추론에 통합하는 엔드투엔드 프레임워크인 GITA를 제안합니다.
GITA는 그래프 시각화 도구, 그래프 설명 생성기, 작업 기반 질문 생성기, 비전-언어 모델(VLM) 추론기의 네 가지 주요 구성 요소로 구성됩니다. 먼저 그래프 시각화 도구는 그래프 구조를 시각적 그래프로 변환하고, 그래프 설명 생성기는 그래프 구조에 대한 텍스트 설명을 생성합니다. 작업 기반 질문 생성기는 주어진 작업에 대한 설명과 요구 사항을 프롬프트 명령으로 구성하고, VLM 추론기는 시각적 그래프와 텍스트 쿼리를 입력으로 받아 자연어로 답변을 생성합니다.