Concetti Chiave
대규모 언어 모델(LLM)의 일관성, 충실도 있는 추론 능력을 평가하여 임상시험 보고서의 안전한 자연어 추론을 수행하고자 한다.
Sintesi
이 연구는 SemEval 2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials 과제에 참여하여 대규모 언어 모델(LLM)의 강건성, 일관성, 충실한 추론 능력을 평가하였다.
- 실험에는 Gemini Pro, GPT-3.5, Flan-T5 등의 모델과 BioLinkBERT, SciBERT, ClinicalBERT 등의 사전 훈련된 언어 모델(PLM)이 사용되었다.
- Gemini Pro와 GPT-3.5에 대해 zero-shot 평가를 수행하였고, Retrieval-Augmented Generation(RAG) 프레임워크와 Tree of Thoughts(ToT) 추론을 통합하였다.
- Gemini Pro가 F1 점수 0.69, 일관성 0.71, 충실도 0.90으로 가장 우수한 성능을 보였다.
- GPT-3.5와의 비교 분석 결과, GPT-3.5가 수치 추론 작업에서 한계를 보였다.
Statistiche
총 69/258(26.74%)의 환자가 코호트 1에서 이상반응을 경험했다.
코호트 1에서 빈혈이 3/258(1.16%) 발생했다.
총 64/224(28.57%)의 환자가 코호트 2에서 이상반응을 경험했다.
코호트 2에서 빈혈이 2/224(0.89%) 발생했다.
Citazioni
"Clinical trials serve as essential endeavors to evaluate the effectiveness and safety of new medical treatments, playing a pivotal role in advancing experimental medicine."
"The SemEval 2024 Task 2 on the Natural Language Inference for Clinical Trials (NLI4CT) revolves around annotating statements extracted from breast cancer CTRs and determining the inference relation between these statements and corresponding sections of the CTRs."