Core Concepts
자동 레이블링 시스템의 성능을 극대화하기 위해 신뢰도 함수를 최적화하는 방법을 제안한다.
Abstract
이 논문은 자동 레이블링 시스템의 핵심 요소인 신뢰도 함수에 대해 다룬다. 기존의 자동 레이블링 시스템은 일반적으로 모델의 소프트맥스 출력을 신뢰도 함수로 사용하지만, 이는 과도하게 자신감 있는 점수를 생성하여 성능이 저하된다. 이를 해결하기 위해 저자들은 자동 레이블링 목적에 맞는 최적의 신뢰도 함수를 찾는 최적화 프레임워크를 제안한다. 이 프레임워크를 기반으로 한 실용적인 방법인 Colander를 소개한다. Colander는 기존 방법들에 비해 최대 60%의 향상된 커버리지를 달성하면서도 5% 이하의 자동 레이블링 오류를 유지할 수 있다. 또한 Colander는 다양한 모델 학습 방법과 호환되어 성능 향상을 가져올 수 있다.
Stats
자동 레이블링 오류 b
E(Xu(A))는 Na/Nu로 정의된다.
자동 레이블링 커버리지 b
P(Xu(A))는 |A|/Nu로 정의된다.
Quotes
"The goal of an auto-labeling algorithm is to label the dataset so that b
E(Xu(A)) ≤ϵa while maximizing coverage b
P(Xu(A)) for any given ϵa ∈[0, 1]."
"Commonly used training procedures produce overconfident scores—high scores for both correct and incorrect predictions."