แนวคิดหลัก
SAKA는 사용자가 구조화된 데이터 또는 오디오 데이터에서 준 자동으로 지식 그래프를 구축하고, 이를 활용하여 질의응답 시스템을 구축할 수 있는 플랫폼이다.
본 연구 논문에서는 사용자 친화적인 준 자동화 지식 그래프 구축 및 활용 플랫폼인 SAKA를 제안합니다. SAKA는 사용자가 전문 지식 없이도 손쉽게 지식 그래프를 구축하고, 이를 기반으로 다양한 응용 프로그램을 개발할 수 있도록 설계되었습니다.
SAKA 플랫폼의 주요 구성 요소
지식 그래프 구축 모듈: 사용자는 구조화된 데이터 파일을 업로드하거나 오디오 데이터를 입력하여 준 자동으로 지식 그래프를 구축할 수 있습니다.
구조화된 데이터 기반 구축: 사용자는 JSON 형식의 데이터 파일을 업로드하고, 엔터티 유형, 관계, 속성 등을 정의하여 지식 그래프를 생성합니다.
오디오 데이터 기반 구축: VAD (Voice Activity Detection) 및 SD (Speaker Diarization) 기술을 사용하여 오디오에서 화자를 구분하고 텍스트로 변환한 후, MIE (Medical Information Extractor) 모델을 통해 엔터티 및 관계를 추출하여 지식 그래프를 생성합니다.
지식 그래프 관리 모듈: 사용자는 구축된 지식 그래프를 여러 버전으로 저장하고 관리할 수 있습니다. 또한, 기존 지식 그래프를 수정하거나 삭제할 수도 있습니다.
응용 프로그램 모듈: 사용자는 구축된 지식 그래프를 기반으로 의미 분석 기반 질의응답 시스템을 구축할 수 있습니다.
SAKA 플랫폼의 장점
사용자 친화적인 인터페이스: SAKA는 직관적인 그래픽 사용자 인터페이스를 제공하여 전문 지식이 없는 사용자도 쉽게 사용할 수 있습니다.
준 자동화된 구축 프로세스: SAKA는 데이터 분석 및 처리를 자동화하여 사용자의 수동 작업을 최소화합니다.
다양한 데이터 소스 지원: SAKA는 구조화된 데이터뿐만 아니라 오디오 데이터도 지원하여 다양한 유형의 정보를 지식 그래프로 변환할 수 있습니다.
유연한 질의응답 시스템 구축: SAKA는 사용자 정의 질의응답 시스템을 구축할 수 있는 유연성을 제공합니다.
SAKA 플랫폼의 활용 가능성
SAKA 플랫폼은 의료, 교육, 금융 등 다양한 분야에서 지식 그래프 구축 및 활용에 사용될 수 있습니다. 예를 들어, 의료 분야에서는 환자 정보, 질병 정보, 치료법 정보 등을 지식 그래프로 구축하여 의료 진단 및 치료에 활용할 수 있습니다.
สถิติ
본 연구에서는 의료 웹사이트(jib.xywy.com)에서 크롤링한 구조화된 데이터를 사용하여 의료 분야의 지식 그래프를 구축했습니다.
구축된 지식 그래프는 검사 항목, 진료과, 질병, 약물, 음식, 제조사, 증상 등 7가지 유형의 엔터티로 구성되며, 약 33,000개의 엔터티와 약 230,000개의 관계를 포함합니다.
VAD 모델은 Librispeech 데이터셋을 사용하여 훈련되었으며, 검증 세트에서 97.42%의 정확도를 달성했습니다.
SD 모델은 LibriSpeech 및 VoxCeleb 데이터셋을 사용하여 훈련되었으며, 최종 EER (Equal Error Rate)은 10.58%입니다.
MIE 모델은 Zhang et al. (2020)이 생성한 의사-환자 대화 데이터셋을 사용하여 훈련 및 테스트되었으며, "Category:Item-Status" 전체 라벨에 대한 예측 결과는 Precision 78.46%, Recall 72.85%, F1-score 74.18%입니다.