Core Concepts
병리학 분야에서 다양한 데이터와 병리학자의 전문성을 결합하여 강력한 기반 모델을 개발하였다.
Abstract
이 연구는 병리학 분야에서 기반 모델 개발을 위해 다음과 같은 접근법을 제안한다:
데이터 큐레이션: 133,000개의 다양한 특성을 가진 슬라이드 데이터셋을 구축하였다. 이 데이터셋에서 12억 개의 이미지 패치를 추출하였다.
전산 분석과 병리학자 전문성 결합: 병리학자의 도움을 받아 슬라이드를 31개의 그룹으로 분류하고, 이미지 패치를 의미 있는 조직 클러스터로 그룹화하였다.
AI 학습: DINOv2 학습 방식을 적용하고, 염색 변화를 포함한 데이터 증강 기법을 사용하여 모델을 학습하였다.
응용: 개발된 기반 모델은 다양한 디지털 병리학 응용 분야에 활용될 수 있다.
이러한 접근법을 통해 기존 모델 대비 적은 데이터와 작은 모델 크기에도 불구하고 우수한 성능을 달성하였다. 향후 더 많은 데이터와 큰 모델로 확장한다면 성능과 복잡한 실제 세계 과제 해결 능력이 크게 향상될 것으로 기대된다.
Stats
병리학자의 도움을 받아 133,000개의 슬라이드 데이터셋을 구축하였다.
이 데이터셋에서 12억 개의 이미지 패치를 추출하였다.
Quotes
"병리학은 임상 의학과 생물의학 연구에서 핵심적인 역할을 한다."
"한정된 수의 표본으로 인해 일반화와 강건성이 여전히 과제이다."
"기반 모델은 이러한 과제를 해결하는 데 기여할 수 있다."