핵심 개념
대규모 언어 모델(LLM)의 연쇄 추론 능력을 향상하기 위해 지식 그래프를 활용한 오프라인 평가 및 최적화 프레임워크를 제안하고, 이를 통해 외부 지식 기반 추론과 LLM의 생성 능력을 효과적으로 결합하는 방법을 제시한다.
연구 목표
본 연구는 대규모 언어 모델(LLM)의 연쇄 추론 능력을 오프라인에서 평가하고, 지식 그래프를 활용하여 이를 향상하는 것을 목표로 한다.
방법
본 연구에서는 LLM의 연쇄 추론 과정을 마르코프 결정 과정(MDP)으로 모델링하고, 지식 그래프의 선호도를 모방하는 행동 정책을 통해 오프라인에서 평가를 수행한다. 이를 위해 지식 그래프 경로를 자연어로 변환하고, 변환된 경로를 사용하여 지식 그래프 선호도를 모델링하는 방법을 제시한다. 또한, LLM의 생성 텍스트와 지식 그래프 간의 정렬을 측정하기 위해 역 경향 점수(IPS)를 사용하고, 지식 그래프 정책의 피드백을 통합한 KG-IPS 추정기를 제안한다.
주요 결과
제안된 KG-IPS 추정기는 목표 정책에 대한 불편 추정치를 제공하며, 분산에 대한 하한을 제공한다. 또한, 실험을 통해 OCEAN이 다중 홉 질문 답변 및 지식 집약적 질문 답변 작업에서 LLM의 성능을 향상시키는 것을 확인하였다.
결론
본 연구에서 제안된 OCEAN 프레임워크는 LLM의 연쇄 추론 능력을 효과적으로 평가하고 향상시키는 방법을 제시한다. 특히, 지식 그래프를 활용한 오프라인 평가 및 최적화는 LLM의 추론 능력과 외부 지식의 일관성을 향상시키는 데 효과적임을 보여준다.
의의
본 연구는 LLM의 연쇄 추론 능력을 향상시키는 새로운 방법을 제시하며, 이는 질문 답변, 텍스트 요약, 대화 생성 등 다양한 자연어 처리 작업의 성능 향상에 기여할 수 있다.
제한점 및 향후 연구 방향
본 연구에서는 Wikidata5M 지식 그래프를 사용하여 실험을 진행하였으며, 향후 다양한 지식 그래프를 활용한 추가 연구가 필요하다. 또한, LLM의 생성 품질을 더욱 향상시키기 위한 연구도 필요하다.
통계
Wikidata5M 지식 그래프에서 6,000개의 질문-답변 쌍을 수집하여 지식 그래프 선호도 모델을 학습하는 데 사용하였다.
멀티홉 질문 답변 작업에서 OCEAN은 HotpotQA 데이터셋에서 최대 3.0%, StrategyQA 데이터셋에서 최대 5.24%의 성능 향상을 보였다.
지식 집약적 질문 답변 작업에서 OCEAN은 PubMedQA 데이터셋에서 최대 6.8%, SciQA 데이터셋에서 최대 4.6%의 성능 향상을 보였다.