핵심 개념
CurateGPT는 전문 큐레이터의 부담을 덜어주고, 방대한 과학 데이터의 증가 속도에 발맞춰 큐레이션 작업의 효율성을 높이는 것을 목표로 하는, LLM 기반의 새로운 바이오 큐레이션 도구입니다.
초록
CurateGPT: 대규모 언어 모델 기반 바이오 큐레이션 도구
본 연구는 바이오 큐레이션 작업의 효율성을 향상시키기 위해 대규모 언어 모델(LLM)을 활용한 새로운 도구인 CurateGPT를 개발하는 것을 목표로 합니다. 수작업으로 진행되는 기존 바이오 큐레이션 작업은 시간이 많이 소요되고 전문 지식이 필요하여, 급증하는 생물 의학 데이터를 따라잡기 어렵다는 한계가 있습니다.
CurateGPT는 Retrieval Augmented Generation (RAG), 구조화된 정보 추출, 증거 검색 등 다양한 생성형 AI 기술을 활용합니다.
다양한 에이전트 활용: CurateGPT는 검색, 채팅, 큐레이션, 추출, 인용 검색, 매칭, 부트스트랩과 같은 작업을 수행하는 여러 에이전트를 제공합니다.
RAG 기반 지식 통합: RAG 기술을 통해 LLM의 지식 기반을 넘어서는 정보에 접근하고, PubMed, Wikipedia 등 온라인 리소스를 동적으로 활용합니다.
구조화된 데이터 추출: 비구조적 텍스트에서 구조화된 정보를 추출하기 위해 SPIRES 알고리즘을 사용합니다.
LinkML 데이터 모델링 프레임워크 활용: 큐레이션된 데이터의 스키마 관리를 위해 LinkML을 사용합니다.