Core Concepts
대규모 언어 모델의 읽기 이해 능력과 생물의학 지식을 활용하여 확장 가능하고 근거 기반의 생물의학 관계 추출 시스템을 개발하였다.
Abstract
이 연구는 생물의학 웹 기사에서 고효율로 관계를 추출하는 시스템을 제안한다. 주요 내용은 다음과 같다:
관계 추출 작업을 대규모 언어 모델의 이진 분류 문제로 정식화하였다. 언어 모델은 외부 코퍼스와 자체 지식을 활용하여 판단을 내리고 그 이유를 제공한다.
웹 기사의 메인 제목을 꼬리 개체로 지정하고, 바이오 의학 용어집을 활용하여 잠재적 머리 개체를 매칭하는 방식으로 접근하였다.
긴 내용은 텍스트 청크로 분할하고 임베딩 모델로 검색하여 관련성 높은 청크를 선별하였다.
오픈소스 언어 모델 SOLAR 70B를 활용하여 3종의 관계 유형에 대해 248,659개의 관계 트리플릿을 추출하였다.
전문가가 직접 평가한 벤치마크 데이터셋에서 SOLAR 70B가 GPT-4와 유사한 수준의 F1 점수 0.882를 달성하였다.
이 방법은 대규모 언어 모델의 강점을 활용하여 생물의학 관계 추출을 고효율로 수행할 수 있음을 보여준다. 다양한 생물의학 웹사이트로 쉽게 확장할 수 있어 실용성이 높다.
Stats
메디스케이프에서 80,910개(73.9%)의 증상 관계, 61,339개(68.1%)의 진단 관계, 118,139개(58.1%)의 치료 관계를 추출했다.
MSD 매뉴얼에서 9,354개(85.1%)의 증상 관계, 9,948개(66.7%)의 진단 관계, 19,130개(75.1%)의 치료 관계를 추출했다.
메드라인 플러스에서 12,787개(84.8%)의 증상 관계, 6,021개(68.6%)의 진단 관계, 7,252개(61.3%)의 치료 관계를 추출했다.
Quotes
"환자들은 타인과 법에 대한 무시를 표현하기 위해 재산을 파괴하거나 괴롭히거나 훔칠 수 있다."
"C. difficile 유발 설사의 증상은 항생제 투여 시작 5-10일 후에 시작되지만 첫날이나 2개월 후에도 발생할 수 있다."
"성인에서 일차 치료는 일반적으로 streptomycin 또는 gentamicin과 doxycycline이다."