이 연구는 3D 의료 영상과 텍스트 보고서를 통합한 BIMCV-R 데이터셋을 소개합니다. 이 데이터셋은 8,069개의 3D CT 영상과 상세한 방사선과 보고서로 구성되어 있으며, 96가지 질병 유형을 포함하고 있습니다.
데이터 처리 과정에서는 영상 품질 향상을 위한 필터링, 디노이징, 크기 조정 등의 전처리가 이루어졌습니다. 텍스트 데이터의 경우 스페인어 보고서를 GPT-4를 통해 영어로 번역하고 전문가 검토를 거쳐 정확성을 확보했습니다.
이 데이터셋을 활용하여 연구팀은 MedFinder라는 다중 모달 검색 모델을 개발했습니다. MedFinder는 BiomedCLIP과 같은 대규모 언어 모델의 기능을 활용하여 의료 영상과 보고서 간의 연관성을 학습합니다. 이를 통해 텍스트-영상, 영상-텍스트, 키워드 기반 검색 기능을 제공합니다.
실험 결과, MedFinder는 기존 모델들에 비해 우수한 성능을 보였습니다. 특히 키워드 기반 검색에서 약 70%의 정확도를 달성하여, 의사들의 진단 과정에 실질적인 도움을 줄 수 있음을 입증했습니다.
이 연구는 3D 의료 영상 분석 분야에 새로운 방향을 제시하며, BIMCV-R 데이터셋과 MedFinder 모델이 향후 관련 기술 발전에 기여할 것으로 기대됩니다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yinda Chen,C... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15992.pdfDypere Spørsmål