แนวคิดหลัก
대규모 언어 모델을 활용하여 비코딩 RNA 관련 문헌을 자동으로 요약하고, 이를 통해 RNA 과학 분야의 문헌 큐레이션 작업을 지원할 수 있다.
บทคัดย่อ
이 연구에서는 대규모 언어 모델(LLM)을 활용하여 비코딩 RNA 관련 문헌을 자동으로 요약하는 방법을 제안한다.
- 먼저 HGNC, miRBase, mirGeneDB, snoDB 등의 데이터베이스에서 4,618개의 RNA 식별자를 선별하였다. 이는 약 28,700개의 전사체와 177,500개의 관련 논문을 대상으로 한다.
- 선별된 RNA에 대해 EuropePMC API를 활용하여 관련 문장을 추출하고, 이를 LLM을 통해 요약하였다.
- 요약 과정에서 참고문헌 정확성, 내용의 사실성 등을 자동으로 검증하는 단계를 거쳐 신뢰할 수 있는 요약문을 생성하였다.
- 무작위로 선별된 50개의 요약문에 대해 전문가 4인이 평가한 결과, 94%의 요약문이 우수한 것으로 나타났다.
- 자동 평가 지표와 전문가 평가 간 상관관계가 낮아, 기존 지표로는 요약문의 질을 정확히 평가하기 어려운 것으로 확인되었다.
- 이 도구를 통해 생성된 4,618개의 요약문은 RNAcentral 데이터베이스에 게재되어 RNA 과학자들에게 제공된다.
สถิติ
지속적인 논문 발행 증가와 큐레이터 수 제한으로 인해 생명과학 분야 문헌 큐레이션이 큰 과제로 대두되고 있다.
비코딩 RNA 분야는 특히 큐레이션 자원이 부족한 실정이다.
คำพูด
"Curation in life sciences is the process by which facts about a biological entity or process are extracted from the scientific literature, collated and organised into a structured form for storage in a database."
"Well-studied ncRNAs have thousands of articles written about them, but very few have summaries of any kind, and those that exist are out of date."