Concepts de base
소규모 언어 모델인 Meerkat-7B가 의료 교과서에서 추출한 고품질 체인-오브-쓰ought 데이터를 활용하여 복잡한 의료 문제를 해결하는 데 필요한 다단계 추론 능력을 크게 향상시켰다.
Résumé
이 연구에서는 Meerkat-7B라는 새로운 의료 AI 시스템을 소개한다. Meerkat-7B는 7억 개의 매개변수를 가진 소규모 언어 모델로, 의료 분야에서 뛰어난 성능을 보였다.
주요 내용은 다음과 같다:
- Meerkat-7B는 18개의 의료 교과서에서 추출한 고품질 체인-오브-쓰ought 데이터를 활용하여 훈련되었다. 이를 통해 복잡한 의료 문제를 해결하는 데 필요한 다단계 추론 능력을 크게 향상시켰다.
- Meerkat-7B는 7개의 의료 벤치마크 데이터셋에서 GPT-3.5(175B), MediTron-7B, BioMistral-7B를 각각 13.1%, 13.4%, 9.8% 능가하는 성과를 거두었다.
- 특히 Meerkat-7B는 USMLE(의사 면허 시험) 합격 기준을 처음으로 넘어선 7억 개 매개변수 모델이 되었다.
- 또한 Meerkat-7B는 기존 7억 개 및 130억 개 매개변수 모델에 비해 더 자세하고 포괄적인 임상 질의 응답을 제공했다.
이 연구는 체인-오브-쓰ought 데이터를 활용한 모델 훈련이 소규모 언어 모델의 추론 능력을 크게 향상시킬 수 있음을 보여준다. 이를 통해 상업용 대규모 언어 모델과의 성능 격차를 상당 부분 좁힐 수 있었다.
Stats
의료 교과서에서 추출한 78,000개의 합성 체인-오브-쓰ought 데이터
MedQA 데이터셋의 9,300개 USMLE 스타일 질문과 체인-오브-쓰ought 추론 경로
Citations
"Meerkat-7B는 7억 개 매개변수 모델 중 처음으로 USMLE 합격 기준을 넘어섰다."
"Meerkat-7B는 기존 7억 개 및 130억 개 매개변수 모델에 비해 더 자세하고 포괄적인 임상 질의 응답을 제공했다."