PathMMU는 병리학 분야의 대규모 다중 모달 모델을 평가하기 위한 전문가 수준의 벤치마크이다. 이 벤치마크는 PubMed 과학 문서, 교과서 및 지침서의 병리학 아틀라스, 병리학 전문가의 Twitter 게시물, 널리 사용되는 병리학 분류 데이터셋, YouTube 동영상의 교육 콘텐츠 등 다양한 출처로부터 수집된 33,428개의 다중 모달 선다형 문제와 24,067개의 이미지로 구성되어 있다.
각 문제에는 정답에 대한 상세한 설명이 포함되어 있다. 이 벤치마크의 구축 과정에서는 GPT-4V의 고급 기능을 활용하여 이미지-캡션 쌍을 풍부하게 만들고, 이를 바탕으로 전문적인 다중 모달 병리학 문제와 답변을 생성하는 단계적 접근법을 사용했다. 또한 7명의 병리의사가 엄격한 기준으로 검토하여 검증 및 테스트 세트를 구축했다.
이 벤치마크를 통해 수행한 실험 결과, 현존하는 최고 수준의 다중 모달 모델들도 PathMMU 벤치마크를 해결하는 데 어려움을 겪는 것으로 나타났다. 가장 우수한 모델인 GPT-4V도 49.8%의 정확도를 보여, 전문 병리의사의 71.8% 성능과 큰 격차를 보였다. 이는 현재 다중 모달 모델들이 병리학 분야에서 전문가 수준의 성능을 달성하기 위해서는 상당한 발전이 필요함을 시사한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuxuan Sun,H... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2401.16355.pdfDeeper Inquiries