핵심 개념
소규모 다중 모달 모델인 LLaVA-Rad를 개발하여 기존 대규모 모델들의 의료 역량 격차를 해소하고, 실제 임상 환경에서 활용 가능한 고성능 도구를 제공한다.
초록
이 연구는 방사선학 영상 보고서 생성을 위한 소규모 다중 모달 모델인 LLaVA-Rad를 개발하였다.
데이터 준비 단계에서는 다양한 출처의 100만 개 이상의 흉부 X선 영상-보고서 쌍을 수집하고, GPT-4를 활용하여 보고서 데이터를 구조화하였다.
모델 개발 단계에서는 도메인 특화 이미지 인코더 BiomedCLIP-CXR-1M과 언어 모델 Vicuna-7B-v1.5를 활용하여 LLaVA-Rad를 구축하였다. 모델 학습은 두 단계로 진행되었는데, 먼저 이미지 특징과 텍스트 임베딩을 정렬하는 단계와 이후 전체 모델을 미세 조정하는 단계로 구성된다.
모델 평가에서는 기존 지표인 BLEU, ROUGE, CheXbert F1, RadGraph F1 외에도 GPT-4 기반의 새로운 평가 지표 G-Rad를 제안하였다. G-Rad는 전문가 평가와 높은 상관관계를 보여 방사선학 보고서 평가에 효과적임을 입증하였다.
실험 결과, LLaVA-Rad는 기존 대규모 모델들을 능가하는 성능을 보였다. 특히 G-Rad 지표에서 GPT-4V 모델 대비 4배 이상 우수한 성과를 달성하였다. 또한 LLaVA-Rad는 단일 V100 GPU에서 실행 가능할 만큼 경량화되어 실제 임상 환경에 적용 가능성이 높다.
통계
흉부 X선 영상-보고서 쌍이 100만 개 이상 수집되었다.
보고서 데이터는 GPT-4를 활용하여 구조화되었다.
LLaVA-Rad 모델 학습에는 MIMIC-CXR 데이터셋의 400,042개 이미지-텍스트 쌍이 사용되었다.
인용구
"LLaVA-Rad는 기존 대규모 모델들을 능가하는 성능을 보였다."
"LLaVA-Rad는 단일 V100 GPU에서 실행 가능할 만큼 경량화되어 실제 임상 환경에 적용 가능성이 높다."