แนวคิดหลัก
대규모 언어 모델(LLM)을 사용하여 체계적 문헌 고찰(SLR)을 위한 질의를 생성할 때 ChatGPT와 같은 모델의 성능이 기존 방법보다 우수하지만, 재현성 및 일반화 가능성 측면에서 여전히 개선의 여지가 있다.
บทคัดย่อ
대규모 언어 모델 기반 질의 생성 연구: 재현성 및 일반화 가능성 분석
본 연구는 체계적 문헌 고찰(SLR) 자동화를 위해 대규모 언어 모델(LLM)을 사용한 질의 생성에 대한 재현성 및 일반화 가능성을 분석합니다. 특히 ChatGPT 및 오픈 소스 LLM의 성능을 비교 분석하고, 기존 연구의 결과 재현을 시도하며, LLM 기반 질의 생성의 한계점을 파악합니다.
체계적 문헌 고찰은 의학 연구의 중요한 부분을 차지하지만, 문헌 선별 과정에 많은 시간과 노력이 소요됩니다. 최근 LLM, 특히 ChatGPT의 등장으로 자동화된 질의 생성을 통한 SLR 과정 단축 가능성이 제기되었습니다. 그러나 LLM 출력의 변동성, 재현성 부족, 도메인 특정 작업에서의 성능 저하 등의 문제점이 존재합니다.
본 연구는 Wang et al. [54] 및 Alaniz et al. [1]의 연구를 기반으로, Seed 및 CLEF TAR 데이터 세트를 사용하여 ChatGPT, Mistral, Zephyr 등 다양한 LLM의 질의 생성 성능을 평가합니다. Precision, Recall, F1-score를 평가 지표로 사용하고, 다양한 질의 생성 프롬프트 유형과 랜덤 시드를 사용하여 결과의 변동성을 분석합니다.