이 연구는 생물의학 자연어 처리(BioNLP) 분야에서 대규모 언어 모델(LLM)의 성능을 체계적으로 평가하였다. 4가지 대표적인 LLM(GPT-3.5, GPT-4, LLaMA 2, PMC LLaMA)을 12개의 BioNLP 데이터셋에 걸쳐 평가하였다. 평가는 zero-shot, static few-shot, dynamic K-nearest few-shot, 그리고 fine-tuning 설정에서 수행되었다.
평가 결과, 기존 SOTA 접근법인 fine-tuning 방식이 대부분의 BioNLP 응용 분야에서 LLM의 zero/few-shot 성능을 능가하였다. 특히 정보 추출 작업에서 그 격차가 컸다. 그러나 GPT-3.5와 GPT-4는 의학 질문 답변과 같은 추론 관련 작업에서 zero/few-shot 성능이 SOTA를 능가하였다. 또한 요약 및 단순화 작업, 문서 분류 등에서도 합리적인 성능을 보였다.
LLaMA 2와 같은 오픈소스 LLM은 zero/few-shot 성능이 취약하여 fine-tuning이 필요했다. 또한 도메인 특화 LLM인 PMC LLaMA도 전반적으로 LLaMA 2 13B fine-tuning 모델보다 성능이 낮았다.
정성적 평가에서는 LLM이 종종 누락, 불일치, 환각 응답을 생성하는 것으로 나타났다. 예를 들어 다중 레이블 문서 분류 데이터셋에서 32%의 응답이 환각되고 22%가 불일치하였다.
이 연구는 BioNLP 응용에서 LLM 사용의 장단점을 체계적으로 분석하고, 실제 활용을 위한 권장사항을 제시하였다. 또한 향후 BioNLP 분야의 LLM 평가를 위한 기준선을 마련하였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Qingyu Chen,... في arxiv.org 09-24-2024
https://arxiv.org/pdf/2305.16326.pdfاستفسارات أعمق