핵심 개념
구글 검색 광고를 활용하여 자발적으로 제공된 피부 질환 이미지와 관련 정보로 구성된 다양하고 대표성 있는 데이터셋을 구축할 수 있다.
초록
이 연구는 구글 검색 광고를 활용하여 피부과 질환 이미지와 관련 정보로 구성된 개방형 데이터셋인 SCIN(Skin Condition Image Network) 데이터셋을 구축하는 방법을 소개한다.
데이터셋 구축 과정:
- 구글 검색 광고를 통해 미국 내 성인 사용자를 대상으로 피부 질환 이미지 제공을 요청했다.
- 제공된 이미지와 함께 인구통계학적 정보, 증상 정보 등을 수집했다.
- 수집된 이미지는 피부과 전문의가 진단명을 부여하고, Fitzpatrick 피부 타입과 Monk 피부 톤을 평가했다.
데이터셋 특징:
- 총 10,408개의 이미지, 5,033명의 기여자로 구성
- 여성(66.72%)과 젊은 층(52% 40세 미만)의 참여율이 높았으며, 32.6%가 비백인 인종/민족 집단
- 대부분 단기간(54% 1주일 이내) 발생한 알레르기, 감염, 염증성 피부 질환으로 구성
- Fitzpatrick 피부 타입과 Monk 피부 톤 분포는 데이터셋의 지리적 기원을 반영
이 데이터셋은 기존 임상 데이터셋에 비해 더 다양하고 대표성 있는 피부 질환 이미지를 제공하여, 피부과 교육, 연구, AI 도구 개발에 활용될 수 있다.
통계
데이터셋의 52.59%가 인종/민족 정보를 제공했으며, 이 중 32.6%가 비백인 집단으로 나타났다.
데이터셋의 66.72%가 여성이었으며, 52%가 40세 미만이었다.
데이터셋의 54%가 1주일 이내 발생한 피부 질환이었다.
데이터셋의 89%가 알레르기, 감염, 염증성 피부 질환이었다.
인용구
"구글 검색 광고는 피부과 질환 이미지 데이터셋 구축에 효과적이다."
"이 데이터셋은 기존 임상 데이터셋에 비해 더 다양하고 대표성 있는 피부 질환 이미지를 제공한다."
"데이터셋의 Fitzpatrick 피부 타입과 Monk 피부 톤 분포는 데이터셋의 지리적 기원을 반영한다."