Core Concepts
이 연구는 현재 이미지 분류 모델의 지리적 편향을 완화하기 위한 다양한 방법을 분석합니다. 달러 거리 데이터셋과 ImageNet 데이터셋을 사용하여 이 편향을 정량적으로 제시하고, 이를 해결하기 위한 여러 기법을 소개합니다.
Abstract
이 연구는 현재 이미지 분류 모델의 지리적 편향 문제를 다룹니다. 연구팀은 두 가지 데이터셋, 달러 거리 데이터셋과 ImageNet 데이터셋을 사용하여 이 편향을 정량적으로 분석했습니다.
데이터셋 분석:
달러 거리 데이터셋은 264개 가정의 30,000개 이상 이미지로 구성되며, 가구 기능에 따라 135개 클래스로 분류됩니다. 각 이미지에는 위치와 구매력 평가 조정 가구 소득 수준 정보가 포함되어 있습니다.
ImageNet 데이터셋은 Flickr에서 수집된 약 50,000개 이미지로, 596개 클래스로 구성됩니다. 연구팀은 위치 정보가 포함된 이미지만 선별하여 사용했습니다.
방법론:
원본 모델: VGG16과 ResNet-18 모델을 각 데이터셋에 fine-tuning하여 성능을 평가했습니다.
가중치 손실: 이미지 손실을 소득 수준으로 나누어 가중치를 부여하는 방식으로 모델을 학습했습니다.
샘플링: 소득 수준별로 균일한 이미지 분포를 만들기 위해 과대/과소 표집을 수행했습니다.
초점 손실: 쉽게 분류되는 예제의 손실을 줄이는 초점 손실 함수를 사용했습니다.
ADDA: 도메인 적응 기법인 ADDA 모델을 적용했습니다.
결과:
달러 거리 데이터셋: VGG16 모델에 초점 손실(γ=5)을 적용한 경우 가장 좋은 성능을 보였습니다. 이 모델은 소득 수준에 따른 정확도 편차를 줄일 수 있었습니다.
ImageNet 데이터셋: ResNet-18 모델에 초점 손실(γ=5)을 적용한 경우 가장 좋은 성과를 보였지만, 달러 거리 데이터셋만큼 뚜렷한 편향 완화 효과는 없었습니다.
ADDA 실험 결과, 고소득과 저소득 이미지 간 도메인 차이가 너무 커서 적응이 어려운 것으로 나타났습니다.
Stats
달러 거리 데이터셋의 경우 원본 VGG16 모델의 정확도가 소득 수준이 높을수록 83%에서 90%까지 증가하는 경향을 보였습니다.
ImageNet 데이터셋의 경우 원본 ResNet-18 모델의 정확도가 유럽 대륙 이미지에서 가장 높게 나타났습니다.
Quotes
"최근 GPU와 TPU 등 ASIC의 발전으로 인한 계산 능력 향상으로 ImageNet, COCO, OpenImages 등 공개 데이터셋에서 최첨단 성능을 보이는 객체 인식 시스템이 등장했습니다. 그러나 이러한 시스템은 서구 선진국에서 수집된 이미지에 편향되어 있어 저소득 국가의 이미지에서는 성능이 저하되는 문제가 있습니다."
"우리의 목표는 이러한 시스템의 지리적 편향을 완화하여 다양한 지역에서 더 강건하고 공정한 객체 인식 모델을 개발하는 것입니다."