PathMMU는 병리학 분야의 대규모 다중 모달 모델을 평가하기 위한 전문가 수준의 벤치마크이다. 이 벤치마크는 PubMed 과학 문서, 교과서 및 지침서의 병리학 아틀라스, 병리학 전문가의 Twitter 게시물, 널리 사용되는 병리학 분류 데이터셋, YouTube 동영상의 교육 콘텐츠 등 다양한 출처로부터 수집된 33,428개의 다중 모달 선다형 문제와 24,067개의 이미지로 구성되어 있다.
각 문제에는 정답에 대한 상세한 설명이 포함되어 있다. 이 벤치마크의 구축 과정에서는 GPT-4V의 고급 기능을 활용하여 이미지-캡션 쌍을 풍부하게 만들고, 이를 바탕으로 전문적인 다중 모달 병리학 문제와 답변을 생성하는 단계적 접근법을 사용했다. 또한 7명의 병리의사가 엄격한 기준으로 검토하여 검증 및 테스트 세트를 구축했다.
이 벤치마크를 통해 수행한 실험 결과, 현존하는 최고 수준의 다중 모달 모델들도 PathMMU 벤치마크를 해결하는 데 어려움을 겪는 것으로 나타났다. 가장 우수한 모델인 GPT-4V도 49.8%의 정확도를 보여, 전문 병리의사의 71.8% 성능과 큰 격차를 보였다. 이는 현재 다중 모달 모델들이 병리학 분야에서 전문가 수준의 성능을 달성하기 위해서는 상당한 발전이 필요함을 시사한다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問