이 논문은 데이터 품질 평가와 스팸 행동 탐지를 위한 체계적인 방법론을 제안한다.
데이터 품질은 주석자의 일관성과 신뢰성으로 정의된다. 기존의 ICC와 Kappa 계수는 복잡한 크라우드소싱 환경에서 한계가 있어, 분산 분해와 마르코프 체인, KL 발산, 삭제 분석 등의 방법을 활용한다.
분산 분해를 통해 작업 간, 작업자 간, 작업-작업자 간 상호작용 분산을 측정하여 Spammer Index를 제안한다. 마르코프 체인과 KL 발산을 이용해 주요 스팸 행동 유형(고정 선택, 반복 패턴, 무작위 추측)을 탐지하고, 삭제 분석으로 영향력 있는 작업자를 식별한다.
시뮬레이션과 실제 얼굴 인식 실험 데이터를 통해 제안 방법의 효과를 검증한다. MTurk 데이터가 가장 낮은 데이터 품질을 보이고, Prolific 데이터가 가장 높은 품질을 보인다. 전문가 데이터도 일부 스팸 행동이 관찰된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yang Ba,Mich... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.17582.pdfDeeper Inquiries