Core Concepts
구조화된 지식베이스와 대형 언어 모델을 결합하면 메타데이터 표준 준수를 크게 향상시킬 수 있다.
Abstract
이 연구는 대형 언어 모델(LLM)인 GPT-4를 활용하여 폐암 관련 데이터의 메타데이터 표준 준수도를 향상시키는 방법을 제안한다.
원본 BioSample 레코드와 GPT-4로 수정한 레코드, CEDAR 템플릿을 활용한 GPT-4 수정 레코드 등 3가지 버전의 메타데이터 품질을 평가했다.
자동 평가 결과, CEDAR 템플릿을 활용한 GPT-4 수정 레코드의 표준 준수도가 79%에서 97%로 크게 향상되었다.
전문가 평가에서도 CEDAR 템플릿을 활용한 GPT-4 수정 레코드의 정확도가 유의미하게 높았다.
이를 통해 구조화된 지식베이스와 대형 언어 모델을 결합하면 메타데이터 표준 준수를 크게 향상시킬 수 있음을 보여주었다.
Stats
평균 메타데이터 표준 준수도가 BioSample 레코드에서 79%에서 GPT-4 수정 레코드에서 80%, CEDAR 템플릿 활용 GPT-4 수정 레코드에서 97%로 향상되었다(p<0.01).
평균 오류 개수가 BioSample 레코드에서 1.64개, GPT-4 수정 레코드에서 1.55개, CEDAR 템플릿 활용 GPT-4 수정 레코드에서 0.85개로 감소했다(p<0.01).
Quotes
"구조화된 지식베이스와 대형 언어 모델을 결합하면 메타데이터 표준 준수를 크게 향상시킬 수 있다."
"CEDAR 템플릿을 활용한 GPT-4 수정 레코드의 정확도가 유의미하게 높았다."