Core Concepts
LLM을 활용하여 임상 용어와 CLIP의 사전 학습 데이터를 잘 정렬함으로써 제로샷 개념 분류 성능을 향상시킬 수 있다.
Abstract
이 연구는 피부과 AI에서 제로샷 개념 분류 성능을 향상시키기 위해 LLM(Large Language Model)을 활용하는 방법을 제안한다. 피부과 진단에는 임상 용어로 표현되는 개념이 중요하지만, 이러한 개념 레이블이 포함된 데이터가 부족한 문제가 있다. CLIP과 같은 제로샷 학습 모델은 이 문제를 해결할 수 있지만, CLIP의 사전 학습 데이터와 임상 용어 간의 불일치로 인해 성능이 제한적이다.
이 연구에서는 LLM을 활용하여 CLIP의 사전 학습 데이터와 잘 정렬된 캡션을 생성하는 방법을 제안한다. 구체적으로 다음과 같은 과정을 거친다:
피부과 교과서에서 추출한 문장 쌍을 이용하여 LLM(GPT-2, GPT-3.5)을 fine-tuning한다.
이렇게 fine-tuned된 LLM을 사용하여 PubMed 논문의 이미지-캡션 쌍에서 캡션을 확장/개선한다.
개선된 캡션을 이용하여 CLIP 모델을 fine-tuning하고, SKINCON 데이터셋에서 제로샷 개념 분류 성능을 평가한다.
실험 결과, fine-tuned GPT-3.5 모델로 생성한 캡션을 사용한 CLIP 모델이 가장 우수한 성능을 보였다. 이는 LLM을 활용하여 임상 용어와 CLIP의 사전 학습 데이터를 잘 정렬할 수 있음을 보여준다. 향후 이 방법을 더 발전시켜 피부과 AI 애플리케이션의 해석 가능성과 투명성을 높일 수 있을 것으로 기대된다.
Stats
피부과 진단에는 임상 용어로 표현되는 개념이 중요하지만, 이러한 개념 레이블이 포함된 데이터가 부족하다.
CLIP과 같은 제로샷 학습 모델은 이 문제를 해결할 수 있지만, CLIP의 사전 학습 데이터와 임상 용어 간의 불일치로 인해 성능이 제한적이다.
실험 결과, fine-tuned GPT-3.5 모델로 생성한 캡션을 사용한 CLIP 모델이 가장 우수한 성능을 보였다.
Quotes
"LLM을 활용하여 임상 용어와 CLIP의 사전 학습 데이터를 잘 정렬할 수 있음을 보여준다."
"향후 이 방법을 더 발전시켜 피부과 AI 애플리케이션의 해석 가능성과 투명성을 높일 수 있을 것으로 기대된다."