Core Concepts
이 논문은 실제 크라우드소싱 플랫폼에서 수집된 대규모 데이터셋 NetEaseCrowd를 소개한다. 이 데이터셋은 장기간의 작업자 활동 기록과 다양한 유형의 작업을 포함하여, 온라인 진실 추론 알고리즘 개발을 위한 새로운 기회를 제공한다.
Abstract
이 논문은 실시간 배포에 적합한 진실 추론 알고리즘 검증을 위한 대규모 크라우드소싱 데이터셋 NetEaseCrowd를 소개한다.
데이터 구축 과정:
6개월 동안 수집된 약 200만 개의 작업과 600만 개의 주석을 포함
다양한 유형의 작업이 포함되어 있으며, 각 작업은 작업 세트 단위로 게시됨
작업자 ID가 익명화되어 있으며, 각 주석의 타임스탬프가 보존되어 있음
데이터 분석:
작업 특성: 대부분의 작업 세트에서 4~9개의 주석이 수집되었으며, 다양한 능력 관련 작업이 포함되어 있음
주석 특성: 주석이 6개월에 걸쳐 수집되었으며, 많은 작업에서 주석의 편차가 크게 나타남
작업자 특성: 대부분의 작업자가 많은 수의 작업에 참여했으며, 작업자의 능력이 시간에 따라 변화하고 작업 유형에 따라 다르게 나타남
실험 및 분석:
기존 진실 추론 방법론을 NetEaseCrowd 데이터셋에 적용하여 성능을 평가
작업 세트 단위, 능력 단위로 추론 성능을 분석하여 시간 정보와 능력 정보의 중요성을 확인
온라인 배포를 위한 효율성 측면에서 감독 학습 기반 방법의 잠재력을 확인
이 데이터셋은 작업자의 시간 변화와 다양한 작업 유형을 고려한 진실 추론 알고리즘 개발을 위한 새로운 기회를 제공한다.
Stats
대부분의 작업 세트에서 4~9개의 주석이 수집되었다.
작업의 72.7%가 "제스처 유사성" 관련 작업이었다.
작업자의 정확도 차이가 0.5를 초과하는 경우도 있었다.
작업자의 정확도와 전체 데이터셋의 정확도 차이가 큰 능력도 있었다.
Quotes
"이 데이터셋은 작업자의 시간 변화와 다양한 작업 유형을 고려한 진실 추론 알고리즘 개발을 위한 새로운 기회를 제공한다."
"감독 학습 기반 방법의 잠재력을 확인했다."