핵심 개념
대형 언어 모델인 GPT-4V를 활용하여 암 병리 이미지를 효과적으로 분류할 수 있음을 보여줌. 특히 소량의 예시 이미지를 활용한 문맥 학습(in-context learning)을 통해 전문 이미지 분류 모델 수준의 성능을 달성할 수 있음.
초록
이 연구는 대형 언어 모델인 GPT-4V를 활용하여 암 병리 이미지를 효과적으로 분류할 수 있음을 보여준다. 기존의 전문 이미지 분류 모델은 많은 양의 레이블링된 데이터와 계산 자원이 필요했지만, GPT-4V는 소량의 예시 이미지를 활용한 문맥 학습(in-context learning)을 통해 유사한 수준의 성능을 달성할 수 있다.
실험에서는 3가지 암 병리 이미지 데이터셋(CRC100K, PatchCamelyon, MHIST)을 활용하였다. 먼저 GPT-4V의 제로샷(zero-shot) 성능을 확인한 결과, 랜덤 추측 수준에 머물렀다. 하지만 소량의 예시 이미지를 활용한 문맥 학습을 통해 성능이 크게 향상되었다. 특히 k-최근접 이웃(kNN) 기반 샘플링을 활용하면 더 나은 성능을 보였다.
CRC100K 데이터셋에서는 10샷 학습 시 90%의 정확도를, PatchCamelyon과 MHIST 데이터셋에서는 각각 88.3%, 83.3%의 정확도를 달성하였다. 이는 동일한 조건에서 전문 이미지 분류 모델(ResNet, ViT)과 비교해도 뒤지지 않는 수준이다.
추가로 GPT-4V의 텍스트 기반 추론 능력 향상을 확인하였다. 소량의 예시 이미지를 활용하면 모델의 텍스트 임베딩 공간에서 라벨 간 구분이 더 명확해지는 것을 확인했다. 이를 통해 모델의 추론 과정에 대한 설명 가능성이 높아짐을 보여주었다.
이 연구 결과는 대형 언어 모델이 전문 이미지 분류 모델을 대체할 수 있는 가능성을 시사한다. 특히 소량의 데이터로도 효과적인 분류가 가능하고, 텍스트 기반 추론을 통해 설명 가능성이 높다는 점에서 의의가 크다. 향후 이 접근법을 다른 의료 영상 분석 분야로 확장할 수 있을 것으로 기대된다.
통계
암 조직과 정상 조직을 구분할 때, 10샷 학습 시 GPT-4V의 정확도는 90%였다.
PatchCamelyon 데이터셋에서 10샷 학습 시 GPT-4V의 정확도는 88.3%였다.
MHIST 데이터셋에서 10샷 학습 시 GPT-4V의 정확도는 83.3%였다.
인용구
"이 연구 결과는 대형 언어 모델이 전문 이미지 분류 모델을 대체할 수 있는 가능성을 시사한다."
"특히 소량의 데이터로도 효과적인 분류가 가능하고, 텍스트 기반 추론을 통해 설명 가능성이 높다는 점에서 의의가 크다."