Core Concepts
웹 이미지 데이터의 노이즈 레이블 문제를 해결하기 위해 그룹 정규화 전략을 통해 클래스 소프트 레이블을 추정하고, 이를 활용한 인스턴스 정제 기법을 제안한다.
Abstract
이 연구는 웹 이미지 데이터의 노이즈 레이블 문제를 해결하기 위한 방법을 제안한다.
그룹 정규화 전략을 통해 클래스 소프트 레이블을 추정하여 모델의 노이즈 내성을 높인다.
추정된 클래스 소프트 레이블을 활용하여 전체 데이터셋에서 노이즈 레이블을 식별하고 정제하는 인스턴스 정제 기법을 제안한다.
그룹 정규화와 인스턴스 정제를 통해 노이즈 내성 및 노이즈 제거 방법의 장점을 통합한다.
실험 결과, 제안 방법이 합성 및 실제 웹 데이터셋에서 기존 최신 방법들을 크게 능가함을 보여준다.
Stats
웹 이미지 데이터셋의 클래스 수는 Web-bird 200개, Web-aircraft 100개, Web-car 196개이다.
Web-bird 데이터셋의 훈련 이미지 수는 18,388개이고, 테스트 이미지 수는 5,794개이며, 레이블 정확도는 약 65%이다.
Web-aircraft 데이터셋의 훈련 이미지 수는 13,503개이고, 테스트 이미지 수는 3,333개이며, 레이블 정확도는 약 73%이다.
Web-car 데이터셋의 훈련 이미지 수는 21,448개이고, 테스트 이미지 수는 8,041개이며, 레이블 정확도는 약 67%이다.
Quotes
"웹 이미지 데이터를 활용하여 대규모 데이터셋을 구축하는 것은 비용 효율적이지만, 이러한 데이터에는 불가피하게 노이즈 레이블이 포함된다."
"딥러닝 모델은 노이즈 레이블에 완벽하게 적합되어 일반화 성능이 저하된다."