이 논문은 텍스트 스트림 마이닝에서 개념 drift 문제를 다룬다. 개념 drift는 데이터 분포의 변화를 의미하며, 텍스트 데이터에서도 자주 발생한다. 그러나 개념 drift가 있는 벤치마크 데이터셋은 드물다.
이 논문에서는 4가지 텍스트 drift 생성 방법을 제안한다:
이 방법들을 Yelp와 Airbnb 데이터셋에 적용하여 실험하였다. 실험 결과, 제안한 drift 생성 방법들이 모두 분류기 성능 저하를 유발하였다. 특히 Incremental SVM이 가장 빠르게 drift에서 회복하는 것으로 나타났다.
이 논문의 기여는 다음과 같다:
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Cristiano Me... um arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12328.pdfTiefere Fragen