Core Concepts
대형 언어 모델의 지식 그래프 기반 추론 능력을 향상시키기 위해 이웃 분할 및 생성적 하위 그래프 인코딩 기법을 제안하고 이를 통해 사실 회상, 역 사실 회상, 다중 홉 추론 등의 성능을 개선할 수 있음을 보여줌.
Abstract
이 연구는 대형 언어 모델(LLM)의 지식 그래프 기반 추론 능력을 향상시키기 위한 방법을 제안합니다. 기존 LLM은 텍스트 데이터에 의존하여 추론하므로 구조화된 지식 그래프와의 통합이 필요합니다.
제안 방법은 다음과 같습니다:
각 노드의 k-hop 이웃 서브그래프를 추출하고 이를 텍스트 형태로 인코딩합니다.
인코딩 시 노드와 관계의 트리플, 인접 리스트, 관계 그룹화, LLM 기반 요약 등 다양한 전략을 시도합니다.
추출된 텍스트 표현을 활용하여 사실 회상, 역 사실 회상, 다중 홉 추론 등의 질문-답변 쌍을 생성합니다.
이렇게 생성된 데이터셋으로 LLM을 미세 조정하여 도메인 지식 그래프 기반 추론 성능을 향상시킵니다.
실험 결과, 제안 방법인 GLaM은 기존 LLM 대비 사실 회상 18%, 다중 홉 추론 13% 향상된 성능을 보였습니다. 특히 새로운 도메인 지식에 대해서는 142%의 큰 성능 향상을 보였습니다. 이는 그래프 구조와 의미를 LLM에 효과적으로 주입할 수 있음을 보여줍니다.
Stats
당뇨병은 인슐린과 메트포르민으로 치료할 수 있다.
Anders Berglund은 "Students learn CS in different ways: insights from an empirical study"라는 논문을 작성했다.
당뇨병은 인슐린 부족(hypoinsulinaemia)으로 인해 발생할 수 있다.
Quotes
"Integrating large language models (LLMs) with knowledge graphs derived from domain-specific data represents an important advancement towards more powerful and factual reasoning."
"Bridging this divide by aligning LLMs with multi-relational graphs can enable grounded, factual inferences vital for applications driven by graph-structured data."
"Our work is the first study on incorporating domain-specific knowledge graphs directly into LLM representations via fine-tuning, targeting accuracy improvements on open ended question answering(QA), a more complex task than the multiple choice setting explored in previous works."