Centrala begrepp
대규모 언어 모델은 의료 관련 질의에 대해 사실과 다른 정보를 생성할 수 있으며, 이는 사회적 및 의료적 영향을 미칠 수 있다.
Sammanfattning
이 연구는 대규모 언어 모델(LLM)이 실제 의료 질의에 대해 생성하는 환각 현상을 처음으로 연구합니다. 연구진은 MEDHALU라는 새로운 벤치마크 데이터셋을 구축했는데, 이는 다양한 의료 주제의 질의와 LLM이 생성한 환각 응답으로 구성되어 있습니다. 또한 MEDHALUDETECT 프레임워크를 제안하여 LLM, 의료 전문가, 일반인 등 세 그룹의 환각 탐지 능력을 비교 분석했습니다. 그 결과, LLM은 의료 전문가에 비해 환각 탐지 성능이 크게 떨어지며 일반인과도 유사한 수준인 것으로 나타났습니다. 이를 개선하기 위해 연구진은 전문가 지식을 LLM에 접목하는 expert-in-the-loop 접근법을 제안했고, 이를 통해 LLM의 환각 탐지 성능이 크게 향상되었습니다.
Statistik
대규모 언어 모델은 의료 전문가에 비해 환각 탐지 성능이 크게 떨어진다.
대규모 언어 모델의 환각 탐지 성능은 일반인과 유사한 수준이다.
expert-in-the-loop 접근법을 통해 대규모 언어 모델의 환각 탐지 성능이 평균 6.3%p 향상되었다.
Citat
"LLMs are much worse than the experts. They also perform no better than laypeople and even worse in few cases in detecting hallucinations."
"To fill this gap, we propose expert-in-the-loop approach to improve hallucination detection through LLMs by infusing expert reasoning."