Centrala begrepp
이 논문은 텍스트 데이터 스트림에서 개념 drift를 생성하기 위한 4가지 방법을 제안한다. 이를 통해 개념 drift가 있는 벤치마크 데이터셋을 생성할 수 있으며, 새로운 텍스트 스트림 분류기와 개념 drift 탐지기 평가에 활용할 수 있다.
Sammanfattning
이 논문은 텍스트 스트림 마이닝에서 개념 drift 문제를 다룬다. 개념 drift는 데이터 분포의 변화를 의미하며, 텍스트 데이터에서도 자주 발생한다. 그러나 개념 drift가 있는 벤치마크 데이터셋은 드물다.
이 논문에서는 4가지 텍스트 drift 생성 방법을 제안한다:
- Class Swap: 일정 시점에 클래스를 서로 바꾼다.
- Class Shift: 일정 시점에 클래스를 순차적으로 변경한다.
- Time-slice Removal: 임의의 연도 데이터를 삭제한다.
- Adjective Swap: 문장 내 형용사를 반의어로 대체한다.
이 방법들을 Yelp와 Airbnb 데이터셋에 적용하여 실험하였다. 실험 결과, 제안한 drift 생성 방법들이 모두 분류기 성능 저하를 유발하였다. 특히 Incremental SVM이 가장 빠르게 drift에서 회복하는 것으로 나타났다.
이 논문의 기여는 다음과 같다:
- 텍스트 drift 생성 방법 제안
- 새로운 Airbnb 텍스트 데이터셋 소개
- 텍스트 스트림 분류기의 drift 대응 성능 비교
Statistik
Airbnb 데이터셋의 경우 Class Swap과 Class Shift 시나리오에서 모든 분류기의 성능이 영향을 받았다.
ISVM은 drift에 의한 영향이 가장 적었고 가장 빨리 회복하였다.
Yelp 데이터셋에서도 ISVM이 가장 우수한 성능을 보였다.