이 논문은 웨어러블 센서 데이터를 활용하여 건강 예측 작업을 수행하는 LLM의 성능을 종합적으로 평가한다. 주요 내용은 다음과 같다:
8개의 최신 LLM(Med-Alpaca, PMC-Llama, Asclepius, ClinicalCamel, Flan-T5, Palmyra-Med, GPT-3.5, GPT-4)을 6개의 공개 건강 데이터셋(PMData, LifeSnaps, GLOBEM, AW_FB, MIT-BIH, MIMIC-III)에 적용하여 13개의 소비자 건강 예측 작업(정신 건강, 활동, 대사, 수면, 심장 평가)을 수행했다.
제안한 Health-Alpaca 모델은 5개 작업에서 가장 좋은 성능을 보였으며, GPT-3.5와 GPT-4보다 25배, 250배 작은 모델이다.
문맥 강화 전략(사용자 프로필, 건강 지식, 시간 정보 등)이 최대 23.8%의 성능 향상을 가져왔다. 특히 건강 지식 문맥이 전반적인 성능 향상에 크게 기여했다.
데이터셋 간 일반화 실험 결과, 단일 데이터셋 fine-tuning보다 다중 데이터셋 fine-tuning이 더 나은 일반화 성능을 보였다.
15% 정도의 데이터로도 zero-shot 성능을 능가하는 fine-tuning이 가능했다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yubin Kim,Xu... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2401.06866.pdfDeeper Inquiries