핵심 개념
BioBERT를 활용하여 유전체 문헌에서 유전자와 질병 간 연관성을 추출하고, 이를 지식 그래프로 구축하였다.
초록
이 연구는 유전체 문헌에서 유전자와 질병 간 연관성을 추출하고 지식 그래프로 구축하는 SimpleGermKG 시스템을 제안한다.
- 생의학 문헌에서 유전자와 질병 개체를 추출하기 위해 BioBERT 모델을 사용하였다.
- 개체 정규화를 위해 온톨로지 기반 및 규칙 기반 알고리즘을 개발하였다.
- 유전자, 질병, 문헌 간 의미 관계를 표현하기 위해 부분-전체 관계 접근법을 적용하였다.
- 구축된 지식 그래프는 297개 유전자, 130개 질병, 46,747개 트리플로 구성되어 있다.
- 그래프 기반 시각화를 통해 결과를 보여주었다.
- 향후 연구로 지식 그래프의 응용, 관계 추출 기법 개선, 온톨로지 확장 등을 제안하였다.
통계
유전체 문헌에는 총 11,261개의 초록이 포함되어 있으며, 114,311개의 문장으로 토큰화되었다.
BioBERT-NER 기법을 통해 19,751개의 유전자 개체와 19,135개의 질병 개체를 추출하였다.
인용구
"유전체 돌연변이를 가진 사람들의 생활 방식을 개선할 수 있는 기회를 탐구할 것이다."
"유전자-질병 관계 추출을 위한 최신 기법을 실험하고 탐구할 것이다."
"유전체 코퍼스에 대한 관계 추출 기법을 개발할 것이다."