핵심 개념
지리적으로 편향된 데이터로 인해 비전-언어 모델의 성능이 저하되는 문제를 해결하기 위해, 데이터 수집 예산을 효율적으로 활용하여 다양한 국가의 데이터를 균형있게 확보하는 방법을 제안한다.
초록
이 연구는 비전-언어 모델의 성능 향상을 위해 지리적 다양성을 고려하는 방법을 제안한다. 먼저, 현재 비전-언어 모델 학습에 사용되는 데이터에서 상대적으로 소외된 국가와 해당 국가의 주요 주제(물체, 행동)를 식별한다. 다음으로, 이러한 주제에 대해 시각적으로 유사한 국가의 데이터를 활용하여 모델 성능을 향상시키는 방법을 제안한다.
구체적으로:
52개국, 94개 주제에 대해 고자원 데이터와 저자원 데이터 간 시각적 유사도를 분석하여, 저자원 데이터가 상대적으로 부족한 (국가, 주제) 쌍을 식별한다.
각 (국가, 주제) 쌍에 대해 시각적으로 유사한 국가들을 찾아 제공한다. 이를 활용하면 데이터 수집 예산이 부족할 때 유사 국가의 데이터로 보완할 수 있다.
국가 간 지리적 거리와 시각적 유사도 간 상관관계가 약하다는 점을 발견했다. 따라서 지리적 다양성을 확보하기 위해서는 지리적 정보 외에 국가의 소득, 문화, 역사 등 다양한 요인을 고려해야 한다.
주제의 시각적 표현이 국가별로 다르게 나타나는데, 이는 주제 자체뿐만 아니라 배경, 맥락 등 전체적인 이미지 정보를 고려해야 함을 시사한다.
이러한 분석 결과를 바탕으로, 향후 지리적으로 다양하고 균형잡힌 데이터셋과 모델을 구축하는 데 활용할 수 있다.
통계
저자원 데이터에는 국가별로 6,549개(일본)에서 1개(불가리아, 베네수엘라)의 이미지가 포함되어 있으며, 중간값은 345개이다.
주제별로는 3,049개(폐기물 용기)에서 18개(옷 건조대)의 이미지가 포함되어 있다.
전체 (국가, 주제) 쌍 4,830개 중 3,329개는 10개 미만의 이미지를 가지고 있어 데이터가 부족한 것으로 나타났다.
인용구
"데이터 주석 비용은 상당한 병목 현상이다. 이미지당 공정한 보상은 연구자 시간을 포함하지 않고도 약 1.08달러이다."
"이 문제를 해결하기 위해 Rojas et al. (2022)과 Ramaswamy et al. (2023)은 소외된 국가로부터 더 많은 데이터를 수집할 것을 제안했다."