핵심 개념
교육 환경에서 다양한 데이터 소스로부터 지식 그래프를 자동으로 구축하고, 이를 대규모 언어 모델과 통합하여 질문-답변 시스템을 구현하는 방법을 제안한다.
초록
이 연구는 교육 환경에서 다양한 데이터 소스로부터 지식 그래프를 자동으로 구축하는 방법을 제안한다. 주요 내용은 다음과 같다:
교육 데이터 환경의 특성 분석: 교육 기관인 HCMUT에서 다양한 데이터 소스(FAQ, 웹사이트, LMS 등)로부터 수집된 데이터의 특성을 분석한다.
교육 오픈 엔티티 발견 (E-OED) 프레임워크: 비정형 텍스트 데이터에서 의도를 발견하기 위한 비지도 학습 기반의 프레임워크를 제안한다. 이 프레임워크는 문장 임베딩, 차원 축소, 밀도 기반 클러스터링, 자동 클러스터 레이블링 등의 단계로 구성된다.
임베딩 기반 관계 발견: 의도와 다른 엔티티 간의 관계를 발견하기 위한 임베딩 기반 접근법을 제안한다. 이를 통해 교육 도메인의 지식 그래프를 구축한다.
대규모 언어 모델 기반 질문-답변 시스템: 구축된 지식 그래프와 대규모 언어 모델을 통합하여 질문-답변 시스템을 구현한다. 사용자 질문을 입력받아 지식 그래프에서 관련 정보를 검색하고, 대규모 언어 모델을 활용하여 자연어 답변을 생성한다.
이 연구는 교육 환경에서 다양한 데이터 소스를 활용하여 지식 그래프를 구축하고, 이를 대규모 언어 모델과 통합하는 방법을 제안함으로써 교육 분야의 질문-답변 시스템 발전에 기여할 것으로 기대된다.
통계
교육 기관에서 수집된 FAQ 데이터는 약 20만 건 이상이다.
베트남어 Banking77 데이터셋에서 76개의 의도를 발견했다.
교육 도메인 지식 그래프에서 243개의 의도 엔티티와 237개의 정책 엔티티 간 613개의 관계를 발견했다.
인용구
"교육 환경에서 다양한 데이터 소스로부터 지식 그래프를 자동으로 구축하는 것은 쉽지 않은 과제이다."
"대규모 언어 모델과 지식 그래프를 통합하여 질문-답변 시스템을 구현하면 더 정확하고 신뢰할 수 있는 답변을 제공할 수 있다."