이 연구는 생물의학 자연어 처리(BioNLP) 분야에서 대규모 언어 모델(LLM)의 성능을 체계적으로 평가하였다. 4가지 대표적인 LLM(GPT-3.5, GPT-4, LLaMA 2, PMC LLaMA)을 12개의 BioNLP 데이터셋에 걸쳐 평가하였다. 평가는 zero-shot, static few-shot, dynamic K-nearest few-shot, 그리고 fine-tuning 설정에서 수행되었다.
평가 결과, 기존 SOTA 접근법인 fine-tuning 방식이 대부분의 BioNLP 응용 분야에서 LLM의 zero/few-shot 성능을 능가하였다. 특히 정보 추출 작업에서 그 격차가 컸다. 그러나 GPT-3.5와 GPT-4는 의학 질문 답변과 같은 추론 관련 작업에서 zero/few-shot 성능이 SOTA를 능가하였다. 또한 요약 및 단순화 작업, 문서 분류 등에서도 합리적인 성능을 보였다.
LLaMA 2와 같은 오픈소스 LLM은 zero/few-shot 성능이 취약하여 fine-tuning이 필요했다. 또한 도메인 특화 LLM인 PMC LLaMA도 전반적으로 LLaMA 2 13B fine-tuning 모델보다 성능이 낮았다.
정성적 평가에서는 LLM이 종종 누락, 불일치, 환각 응답을 생성하는 것으로 나타났다. 예를 들어 다중 레이블 문서 분류 데이터셋에서 32%의 응답이 환각되고 22%가 불일치하였다.
이 연구는 BioNLP 응용에서 LLM 사용의 장단점을 체계적으로 분석하고, 실제 활용을 위한 권장사항을 제시하였다. 또한 향후 BioNLP 분야의 LLM 평가를 위한 기준선을 마련하였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問