Core Concepts
실제 레이블 노이즈 패턴을 반영한 합성 노이즈 데이터셋 생성 알고리즘을 제안하고, 이를 통해 노이즈 레이블 처리 기법을 평가한다.
Abstract
이 논문은 이미지 분류 작업에서 노이즈 레이블 처리를 위한 다양한 접근법을 체계적으로 검토한다.
먼저 노이즈 레이블의 정의와 문제 설명을 제공한다. 이어서 노이즈 패턴에 대한 3가지 분류를 소개한다: 인스턴스 독립적 노이즈, 인스턴스 의존적 노이즈, 실제 인간 주석 노이즈.
다음으로 실제 노이즈 데이터셋에 대해 설명하고, 노이즈 레이블 처리를 위한 4가지 주요 접근법을 소개한다: 노이즈 전이 행렬 추정, 노이즈 강건 정규화, 샘플 선택, 반지도 학습 기반 방법.
마지막으로 실제 노이즈 패턴을 반영한 합성 노이즈 데이터셋 생성 알고리즘을 제안한다. 이 알고리즘은 실제 데이터의 특징 분포와 노이즈 전이 행렬을 활용하여 실제와 유사한 노이즈 데이터를 생성한다. 제안된 알고리즘을 CIFAR-10N 데이터셋에 적용하여 새로운 벤치마크를 구축하고, 대표적인 노이즈 강건 기법들의 성능을 평가한다.
Stats
노이즈 레이블이 존재하는 경우 딥러닝 모델이 쉽게 노이즈 레이블에 과적합될 수 있다.
실제 레이블 노이즈 데이터셋 구축 과정은 많은 시간과 비용이 소요된다.
기존 합성 노이즈 데이터셋은 실제 노이즈 패턴과 거리가 멀다.
Quotes
"최근 딥 신경망(DNN)은 컴퓨터 비전 작업에서 눈부신 성과를 거두었으며, DNN의 성공은 데이터의 풍부함에 크게 의존한다."
"그러나 데이터 수집 및 고품질 정답 레이블 확보 과정에는 많은 인력과 비용이 소요된다. 데이터 주석 과정에서 주석자들은 실수를 저지르기 쉬워 이미지의 잘못된 레이블이 발생하게 된다."