Conceptos Básicos
합성 데이터를 활용하여 프라이버시 친화적인 얼굴 인식 모델을 개발하고 실제 데이터와의 성능 격차를 줄이는 것이 이 경진대회의 핵심 목표이다.
Resumen
이 논문은 합성 데이터를 활용한 얼굴 인식 모델 개발을 목표로 한 SDFR 경진대회의 요약을 제공한다. 경진대회는 두 가지 과제로 구성되었는데, 첫 번째 과제에서는 고정된 얼굴 인식 모델 백본과 데이터셋 크기 제한이 있었으며, 두 번째 과제에서는 모델 백본, 데이터셋, 학습 파이프라인에 대한 자유도가 높았다. 참가팀들은 기존 합성 데이터셋 또는 새로 생성한 합성 데이터셋을 활용하여 얼굴 인식 모델을 학습시켰다. 제출된 모델들은 7개의 벤치마크 데이터셋으로 평가되었으며, 결과는 리더보드에 게시되었다. 최종 제출 모델들은 기존 합성 데이터셋 기반 모델 대비 성능 향상을 보였지만, 여전히 실제 데이터셋 기반 모델과의 격차가 존재한다. 또한 인구통계학적 편향 평가 결과, 모든 모델에서 인종 간 성능 차이가 관찰되었다. 이를 통해 합성 데이터를 활용한 얼굴 인식 모델 개발에 있어 데이터 품질 및 다양성 확보, 편향 완화 등의 과제가 남아있음을 확인할 수 있다.
Estadísticas
실제 데이터셋 기반 모델(MS-Celeb, WebFace-4M, Casia-WebFace)의 IJB-B, IJB-C 데이터셋 성능은 각각 94.88%, 96.23%, 52.43%
합성 데이터셋 기반 모델(SynFace, DigiFace, IDNet)의 IJB-B, IJB-C 데이터셋 성능은 각각 14.62%, 38.89%, 32.28%
최고 성능 제출 모델(BioLab, Task 2)의 IJB-B, IJB-C 데이터셋 성능은 각각 76.94%, 81.25%
Citas
"Large-scale face recognition datasets are collected by crawling the Internet and without individuals' consent, raising legal, ethical, and privacy concerns."
"With the recent advances in generative models, recently several works proposed generating synthetic face recognition datasets to mitigate concerns in web-crawled face recognition datasets."