Concepts de base
전문화된 LLM인 Ask Avo는 일반 목적 LLM인 ChatGPT-4에 비해 의사들의 신뢰성, 실행 가능성, 관련성, 포괄성, 사용자 친화성 측면에서 크게 향상된 사용자 경험을 제공한다.
Résumé
이 연구는 Ask Avo와 ChatGPT-4의 임상 의사결정 지원 시스템에 대한 의사들의 사용자 경험을 비교 평가했다.
질문 선정:
- 10개의 합의 임상 지침 문서에서 각각 1개의 관련 임상 질문을 선정했다.
LLM 준비:
- Ask Avo는 사전에 선정된 10개의 임상 지침 문서를 데이터베이스에 업로드하여 Language Model-Augmented Retrieval (LMAR) 기능을 활용했다.
- ChatGPT-4는 이러한 문서를 제공받지 않았다.
참여자 모집:
응답 수집:
- 참여자들은 Ask Avo와 ChatGPT-4에 각 8개의 임상 질문을 제출하고, 신뢰성, 실행 가능성, 관련성, 포괄성, 사용자 친화성 측면에서 1-5점으로 평가했다.
결과:
- Ask Avo는 ChatGPT-4에 비해 모든 평가 기준에서 유의미하게 높은 점수를 받았다.
- 참여자들은 Ask Avo의 직접 인용 기능과 AI 팩트 체크 옵션을 긍정적으로 평가했다.
- 그러나 일부 참여자들은 Ask Avo의 응답이 너무 길고 구체적인 치료 정보가 부족하다고 지적했다.
결론:
- 임상 요구사항을 고려하여 설계된 전문화된 LLM은 일반 목적 LLM에 비해 의사들의 사용자 경험을 크게 향상시킬 수 있다.
- 이러한 기술의 지속적인 발전과 실제 임상 환경에서의 엄격한 평가가 필요할 것이다.
Stats
Ask Avo는 ChatGPT-4에 비해 다음과 같은 점에서 유의미하게 높은 점수를 받았다:
신뢰성: 4.52 vs 3.34 (+35.30%, p<0.001)
실행 가능성: 4.41 vs 3.19 (+38.25%, p<0.001)
관련성: 4.55 vs 3.49 (+30.28%, p<0.001)
포괄성: 4.50 vs. 3.37 (+33.41%, p<0.001)
사용자 친화성: 4.52 vs. 3.60 (+25.48%, p<0.001)
Citations
"직접 인용된 출처를 보여주는 기능과 같은 탭에서 그 출처를 쉽게 확인할 수 있는 것이 마음에 듭니다."
"'AI 팩트 체크' 옵션이 정보의 한계를 명확히 해주는 것이 좋습니다."
"GPT에 비해 Ask Avo의 응답이 더 간결하고 초점이 맞춰져 있어 보입니다. 질문을 잘 이해한 것 같습니다."
"구체적이고 실행 가능한 조언을 제공해줘서 좋습니다. 환자와 의료진이 겪을 수 있는 어려움도 포함되어 있어 유용합니다."
"너무 텍스트 위주라 표나 섹션으로 구성하면 이해하기 쉬울 것 같습니다."
"구체적인 약물 선택과 용량 정보가 빠져있어 아쉽습니다."