이 연구는 대규모 언어 모델(LLM)이 실제 의료 질의에 대해 생성하는 환각 현상을 처음으로 연구합니다. 연구진은 MEDHALU라는 새로운 벤치마크 데이터셋을 구축했는데, 이는 다양한 의료 주제의 질의와 LLM이 생성한 환각 응답으로 구성되어 있습니다. 또한 MEDHALUDETECT 프레임워크를 제안하여 LLM, 의료 전문가, 일반인 등 세 그룹의 환각 탐지 능력을 비교 분석했습니다. 그 결과, LLM은 의료 전문가에 비해 환각 탐지 성능이 크게 떨어지며 일반인과도 유사한 수준인 것으로 나타났습니다. 이를 개선하기 위해 연구진은 전문가 지식을 LLM에 접목하는 expert-in-the-loop 접근법을 제안했고, 이를 통해 LLM의 환각 탐지 성능이 크게 향상되었습니다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Vibhor Agarw... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19492.pdfDybere Forespørgsler