핵심 개념
AnchorAL은 대규모 불균형 데이터셋에 대한 능동 학습 문제를 해결하기 위해 고안되었다. 고정된 크기의 작은 하위 풀을 사용하여 계산 비용을 줄이고, 레이블된 인스턴스에 대한 앵커를 동적으로 선택하여 입력 공간을 탐색하고 소수 클래스 인스턴스를 발견한다.
초록
이 논문은 대규모 불균형 데이터셋에 대한 능동 학습 문제를 다룬다. 표준 풀 기반 능동 학습은 계산 비용이 많이 들고 불균형한 데이터에 대해 성능이 저하될 수 있다.
AnchorAL은 이러한 문제를 해결하기 위해 제안된 방법이다. 각 반복에서 AnchorAL은 레이블된 집합에서 클래스별 인스턴스(앵커)를 선택하고, 이 앵커와 가장 유사한 무레이블 인스턴스를 하위 풀로 사용한다. 이를 통해 계산 비용을 줄이고 입력 공간 탐색을 촉진하여 소수 클래스 인스턴스를 발견할 수 있다.
실험 결과, AnchorAL은 기존 방법보다 빠르고 성능이 좋으며, 더 균형 잡힌 레이블된 데이터셋을 생성한다.
통계
대규모 웹 스케일 텍스트 데이터는 일반화된 언어 모델 학습에 기여했다.
데이터 수집 및 주석 작업은 소수 클래스가 드물게 발생하는 불균형 분류 작업에서 어렵다.
능동 학습은 레이블 효율성을 높이고 주석 비용을 낮출 수 있지만, 대규모 불균형 데이터셋에서 어려움을 겪는다.
인용구
"표준 풀 기반 능동 학습은 대규모 및 불균형 풀에 어려움을 겪는다."
"AnchorAL은 계산 비용을 줄이고 입력 공간 탐색을 촉진하여 소수 클래스 인스턴스를 발견할 수 있다."