Core Concepts
대규모 언어 모델과 CLIP 기반 이미지 분류 모델을 활용하여 의료 영상과 텍스트 질문에 대한 답변을 생성하였으며, 이를 통해 다중 모달 의료 AI 분야에서의 발전 가능성을 확인하였다.
Abstract
이 논문은 MEDIQA-M3G 2024 다국어 및 다중 모달 의료 답변 생성 공동 과제에 대한 WangLab의 제출 내용을 설명한다. 두 가지 독립적인 솔루션을 보고하는데, 첫 번째는 Claude 3 Opus API를 연속으로 호출하는 방식이고, 두 번째는 CLIP 스타일의 이미지-질병 레이블 조인트 임베딩 모델을 학습하는 방식이다. 이 두 가지 솔루션은 각각 영어 부문에서 1위와 2위를 차지했으며, 다음 최고 솔루션보다 크게 앞섰다. 또한 대회 이후 실험을 통해 얻은 통찰도 논의한다. 이 솔루션들의 성능은 과제의 어려움과 의료 시각 질문 답변의 도전적인 특성으로 인해 여전히 개선의 여지가 크지만, 다단계 대규모 언어 모델 접근과 CLIP 기반 이미지 분류 접근은 향후 연구를 위한 유망한 방향으로 확인되었다.
Stats
이 과제는 842개의 훈련 데이터, 56개의 검증 데이터, 100개의 테스트 데이터로 구성되어 있다.
각 사례는 피부 질환 이미지, 관련 질문 텍스트, 의료 전문가의 답변으로 구성된다.
답변 평가를 위해 deltaBLEU 지표가 사용되며, 이는 단어 일치, 일관성(가장 빈번한 답변), 의료 전문가의 경력 수준을 고려한다.
Quotes
"이 과제는 의료 영상 질문 답변 생성의 어려움과 도전적인 특성을 잘 보여준다."
"다단계 대규모 언어 모델 접근과 CLIP 기반 이미지 분류 접근은 향후 연구를 위한 유망한 방향으로 확인되었다."