본 연구는 대화형 의료 영상 분할(IMIS) 작업을 위한 대규모 벤치마크 데이터셋인 IMed-361M을 소개하고, 이를 기반으로 개발된 IMIS 기준 모델의 성능을 평가합니다. IMIS는 의료진의 진단 및 치료 과정을 지원하고, 완전 자동화된 분할 모델의 한계를 해결하는 중요한 기술입니다. 그러나 기존의 IMIS 연구는 대규모, 다양성, 고밀도 주석 데이터셋의 부족으로 인해 모델 일반화 및 일관된 평가에 어려움을 겪어왔습니다.
IMed-361M은 14개의 의료 영상 양식과 204개의 분할 대상을 포함하는 640만 개 이상의 의료 영상과 해당 Ground Truth 마스크로 구성됩니다. 이 데이터셋은 공개 및 비공개 데이터 소스를 통합하고, 자동 주석을 위해 SAM(Segment Anything Model)과 같은 기반 모델을 활용하여 생성되었습니다. 엄격한 품질 관리 및 세분화 관리를 통해 각 이미지에 대한 고밀도 대화형 마스크를 생성하고 품질을 보장했습니다. IMed-361M은 이미지당 평균 56개의 마스크를 포함하여 총 3억 6,100만 개의 마스크를 제공합니다.
본 연구에서는 IMed-361M 데이터셋을 사용하여 클릭, 경계 상자, 텍스트 프롬프트 및 이들의 조합을 포함한 대화형 입력을 통해 고품질 마스크 생성을 지원하는 IMIS 기준 네트워크를 개발했습니다. 이 네트워크는 이미지 특징을 추출하는 이미지 인코더, 사용자 상호 작용 정보를 통합하는 프롬프트 인코더, 이미지 및 프롬프트 임베딩을 사용하여 분할 결과를 생성하는 마스크 디코더의 세 가지 주요 구성 요소로 구성됩니다.
IMed-361M 데이터셋에서 IMIS 기준 모델을 학습하고 다양한 의료 시나리오에서 성능을 평가했습니다. 그 결과, IMIS-Net은 기존의 다른 비전 기반 모델보다 이미지 및 마스크 수준 모두에서 우수한 성능을 보였습니다. 또한, 다양한 상호 작용 전략이 모델 결과에 미치는 영향을 분석하여 서로 다른 대화형 분할 방법의 강점과 한계에 대한 심층적인 이해를 제공했습니다.
IMed-361M 데이터셋과 기준 모델은 의료 영상 분야에서 기반 모델 개발을 촉진하고 다양한 모델에 대한 공정한 평가를 위한 기반을 마련할 것으로 기대됩니다. IMIS-Net은 다양한 임상 응용 분야에 대한 일반적인 기술 지원을 제공하여 의료 분야에서 AI 기술의 광범위한 적용을 가속화할 것입니다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Junlong Chen... lúc arxiv.org 11-21-2024
https://arxiv.org/pdf/2411.12814.pdfYêu cầu sâu hơn