본 연구는 대화형 의료 영상 분할(IMIS) 작업을 위한 대규모 벤치마크 데이터셋인 IMed-361M을 소개하고, 이를 기반으로 개발된 IMIS 기준 모델의 성능을 평가합니다. IMIS는 의료진의 진단 및 치료 과정을 지원하고, 완전 자동화된 분할 모델의 한계를 해결하는 중요한 기술입니다. 그러나 기존의 IMIS 연구는 대규모, 다양성, 고밀도 주석 데이터셋의 부족으로 인해 모델 일반화 및 일관된 평가에 어려움을 겪어왔습니다.
IMed-361M은 14개의 의료 영상 양식과 204개의 분할 대상을 포함하는 640만 개 이상의 의료 영상과 해당 Ground Truth 마스크로 구성됩니다. 이 데이터셋은 공개 및 비공개 데이터 소스를 통합하고, 자동 주석을 위해 SAM(Segment Anything Model)과 같은 기반 모델을 활용하여 생성되었습니다. 엄격한 품질 관리 및 세분화 관리를 통해 각 이미지에 대한 고밀도 대화형 마스크를 생성하고 품질을 보장했습니다. IMed-361M은 이미지당 평균 56개의 마스크를 포함하여 총 3억 6,100만 개의 마스크를 제공합니다.
본 연구에서는 IMed-361M 데이터셋을 사용하여 클릭, 경계 상자, 텍스트 프롬프트 및 이들의 조합을 포함한 대화형 입력을 통해 고품질 마스크 생성을 지원하는 IMIS 기준 네트워크를 개발했습니다. 이 네트워크는 이미지 특징을 추출하는 이미지 인코더, 사용자 상호 작용 정보를 통합하는 프롬프트 인코더, 이미지 및 프롬프트 임베딩을 사용하여 분할 결과를 생성하는 마스크 디코더의 세 가지 주요 구성 요소로 구성됩니다.
IMed-361M 데이터셋에서 IMIS 기준 모델을 학습하고 다양한 의료 시나리오에서 성능을 평가했습니다. 그 결과, IMIS-Net은 기존의 다른 비전 기반 모델보다 이미지 및 마스크 수준 모두에서 우수한 성능을 보였습니다. 또한, 다양한 상호 작용 전략이 모델 결과에 미치는 영향을 분석하여 서로 다른 대화형 분할 방법의 강점과 한계에 대한 심층적인 이해를 제공했습니다.
IMed-361M 데이터셋과 기준 모델은 의료 영상 분야에서 기반 모델 개발을 촉진하고 다양한 모델에 대한 공정한 평가를 위한 기반을 마련할 것으로 기대됩니다. IMIS-Net은 다양한 임상 응용 분야에 대한 일반적인 기술 지원을 제공하여 의료 분야에서 AI 기술의 광범위한 적용을 가속화할 것입니다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések