Core Concepts
실제 데이터와 합성 데이터 간의 차이를 이해하고 합성 데이터의 다양성을 향상시키기 위해 대규모 주석 데이터셋을 활용하여 분석을 수행하였다.
Abstract
이 연구는 실제 데이터와 합성 데이터 간의 차이를 이해하고 합성 데이터의 다양성을 향상시키기 위해 수행되었다. 연구진은 두 개의 실제 데이터셋(BUPT-BalancedFace, BUPT-GlobalFace)과 두 개의 합성 데이터셋(IDiff-Face, Syn-GAN)에 대해 47개의 속성을 자동으로 주석 처리하였다.
데이터셋 간 속성 분포 비교 결과, 실제 데이터와 합성 데이터 간에 상당한 차이가 있음을 확인하였다. 특히 수염, 미소, 액세서리 등의 속성에서 큰 차이가 나타났다. 또한 Kullback-Leibler 발산을 통해 실제 데이터 분포를 합성 데이터로 근사하는 것이 어렵다는 것을 확인하였다.
이 연구는 실제 데이터와 합성 데이터 간의 차이를 체계적으로 분석하고, 합성 데이터의 다양성을 향상시키기 위한 기반을 마련하였다. 향후 연구에서는 이 주석 데이터셋을 활용하여 합성 데이터 생성 모델을 개선하고, 얼굴 인식 모델의 공정성 향상 등에 활용할 수 있을 것으로 기대된다.
Stats
실제 데이터와 합성 데이터 간 수염 속성 분포에 큰 차이가 있다.
실제 데이터에서는 미소 표현이 잘 포착되지만, 합성 데이터에서는 미소 표현이 잘 포착되지 않는다.
실제 데이터에서는 액세서리 착용이 다양하게 나타나지만, 합성 데이터에서는 액세서리 착용이 매우 드물게 나타난다.
Quotes
"실제 데이터 분포를 합성 데이터로 근사하는 것이 어렵다는 것을 확인하였다."
"향후 연구에서는 이 주석 데이터셋을 활용하여 합성 데이터 생성 모델을 개선하고, 얼굴 인식 모델의 공정성 향상 등에 활용할 수 있을 것으로 기대된다."