핵심 개념
병원 경과 요약 생성을 위한 도메인 적응 대형 언어 모델의 성능을 벤치마크하고 평가합니다.
초록
병원 경과 요약은 임상 노트를 요약하여 생성되는 일반적인 임상 문서입니다.
대형 언어 모델(Large Language Models, LLMs)을 사용하여 BHC 합성을 개선하기 위한 벤치마크를 소개합니다.
세 가지 건강 관련 LLM과 두 가지 일반 목적 LLM의 성능을 평가합니다.
LLM의 성능은 BLEU 및 BERT-Score를 사용하여 측정되었습니다.
임상 읽기자 연구에서 GPT-4가 가장 선호되는 모델로 나타났습니다.
LLM을 사용한 BHC 합성의 높은 품질 성능을 관찰했으며, 미래 작업을 촉진하기 위한 벤치마크로 제안합니다.
통계
Llama2-13B는 BLEU 및 BERT-Score 평가 지표에서 다른 도메인 적응 모델보다 우수한 성과를 보였습니다.
GPT-4는 임상 노트 입력의 컨텍스트 길이 증가에 대해 더 강한 견고성을 보여주었습니다.
인용구
"GPT-4는 임상 노트 입력의 컨텍스트 길이 증가에 대해 더 강한 견고성을 보여주었습니다."
"Llama2-13B는 BLEU 및 BERT-Score 평가 지표에서 다른 도메인 적응 모델보다 우수한 성과를 보였습니다."