מושגי ליבה
대규모 언어 모델을 활용하여 비코딩 RNA 관련 문헌을 자동으로 요약하고, 이를 통해 RNA 과학 분야의 문헌 큐레이션 작업을 지원할 수 있다.
תקציר
이 연구에서는 대규모 언어 모델(LLM)을 활용하여 비코딩 RNA 관련 문헌을 자동으로 요약하는 방법을 제안한다.
먼저 HGNC, miRBase, mirGeneDB, snoDB 등의 데이터베이스에서 4,618개의 RNA 식별자를 선별하였다. 이는 약 28,700개의 전사체와 177,500개의 관련 논문을 대상으로 한다.
선별된 RNA에 대해 EuropePMC API를 활용하여 관련 문장을 추출하고, 이를 LLM을 통해 요약하였다.
요약 과정에서 참고문헌 정확성, 내용의 사실성 등을 자동으로 검증하는 단계를 거쳐 신뢰할 수 있는 요약문을 생성하였다.
무작위로 선별된 50개의 요약문에 대해 전문가 4인이 평가한 결과, 94%의 요약문이 우수한 것으로 나타났다.
자동 평가 지표와 전문가 평가 간 상관관계가 낮아, 기존 지표로는 요약문의 질을 정확히 평가하기 어려운 것으로 확인되었다.
이 도구를 통해 생성된 4,618개의 요약문은 RNAcentral 데이터베이스에 게재되어 RNA 과학자들에게 제공된다.
סטטיסטיקה
지속적인 논문 발행 증가와 큐레이터 수 제한으로 인해 생명과학 분야 문헌 큐레이션이 큰 과제로 대두되고 있다.
비코딩 RNA 분야는 특히 큐레이션 자원이 부족한 실정이다.
ציטוטים
"Curation in life sciences is the process by which facts about a biological entity or process are extracted from the scientific literature, collated and organised into a structured form for storage in a database."
"Well-studied ncRNAs have thousands of articles written about them, but very few have summaries of any kind, and those that exist are out of date."