本論文では、クラウドソーシングデータの品質を評価する方法を提案しています。
データ品質の2つの側面、一貫性と信頼性に着目しています。
一貫性の評価には分散分析を用い、スパマーインデックスを提案しています。これは、ワーカー間、タスク間、およびそれらの交互作用の分散を総分散で割ったものです。スパマーインデックスが高いほど、ワーカー間の一致度が低いことを示します。
信頼性の評価には、マルコフ連鎖とKL発散を使ったスパミング行動の検出を行っています。主な3つのスパミング行動、「特定の選択肢を選び続ける」「繰り返しパターンを示す」「ランダムに選択する」を特定し、それぞれの行動パターンに応じた閾値を設定しています。
さらに、タスク完了時間も考慮し、平均以下の時間で作業するワーカーを潜在的なスパマーとして識別しています。
シミュレーションと実際のクラウドソーシングデータ(MTurk、Prolific、空港)を用いて提案手法の有効性を検証しています。データ品質が低いほど、検出されるスパマーの数が多く、低精度のワーカーも多いことが示されました。
本手法は、クラウドソーシングデータの品質を多角的に評価し、信頼性の高いデータを得るための重要な取り組みといえます。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Yang Ba,Mich... um arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.17582.pdfTiefere Fragen