Główne pojęcia
대형 언어 모델(LLM)은 의료 분야에서 다양한 응용 프로그램을 통해 혁신을 이끌고 있으며, 이를 효과적이고 윤리적으로 활용하기 위해서는 전문화된 평가 프레임워크가 필요하다.
Streszczenie
이 종합 조사는 LLM의 의료 분야 내 광범위한 응용과 필수적인 평가를 제시한다.
임상 응용, 의료 텍스트 데이터 처리, 연구, 교육, 공중 보건 인식 등 다양한 의료 응용 분야에서 LLM의 역할을 탐구한다. 각 분야에서 LLM의 성능, 정확성, 윤리적 부합성 등을 평가하는 방법론을 자세히 다룬다.
이를 통해 의료 전문가, 연구자, 정책 입안자들이 LLM의 강점과 한계를 종합적으로 이해하고, 이들을 책임감 있게 개발 및 배치할 수 있도록 지침을 제공한다.
Statystyki
ChatGPT는 임상 진단, 검사, 최종 진단, 임상 관리 등의 과제에서 71.7%의 정확도를 보였다.
GPT-4는 인종 및 성별 편향을 보여 임상 진료에 부정적 영향을 미칠 수 있다.
ChatGPT는 영양 관리, 안과 질환, 정신 건강 등 다양한 전문 분야에서 전문가 수준의 성과를 보였다.
Med-MLLM은 의료 영상 보고서 처리에서 뛰어난 성능을 보였다.
Cytaty
"LLM은 의료 분야에서 혁신을 이끌고 있지만, 이들의 효과적이고 윤리적인 활용을 위해서는 전문화된 평가 프레임워크가 필요하다."
"LLM의 투명성 부족, 확률적 출력, 환각, 추론 능력 제한, 지식 편향 등의 문제를 해결하기 위해서는 실제 환경에서의 엄격한 평가가 필요하다."