이 연구는 포르투갈어 의료 대화 모델 개발을 위해 HealthCareMagic-100k-en과 MedQuAD 데이터셋을 GPT-3.5를 사용하여 포르투갈어로 번역하고, PEFT-QLoRA 방법을 사용하여 ChatBode-7B 모델을 미세 조정했습니다.
의료 데이터로 사전 학습된 InternLM2 모델이 가장 우수한 전반적인 성능을 보였습니다. 그러나 ChatBode에서 파생된 DrBode 모델은 의료 지식의 재앙적 망각 현상을 겪었습니다. 이에 반해 DrBode 모델은 문법성과 일관성 측면에서 더 나은 성능을 보였습니다.
평가자 간 낮은 합의도가 발견되어, 더 강력한 평가 프로토콜 개발의 필요성이 강조되었습니다. 이 연구는 의료 분야 특화 다국어 모델 평가, 교육 데이터 품질 향상, 일관된 평가 방법론 개발 등 향후 연구 방향을 제시합니다.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas