核心概念
大規模なデータからIRTモデルの潜在変数を学習するために、コアセットを活用して効率的な学習を実現する。
要約
アイテム反応理論(IRT)モデルは、n人の受験者とm個のテスト項目から構成され、それぞれが対応する回答の質を示すカテゴリカルデータから、受験者の潜在能力と問題の難易度特性を評価することを目指しています。最近では、PISAやインターネット調査などの大規模なグローバル評価が増加しており、これにより参加者数が大幅に増加しています。また、機械学習やデータ解析問題でIRTモデルを使用する際には、nとmが非常に大きくなる可能性があり、計算の効率性とスケーラビリティに挑戦します。IRTモデル内の潜在変数を大規模なデータから学習するためには、これらのモデルがロジスティック回帰と似ていることを活用し、コアセットと呼ばれる小さな重み付きサブセットを使用して正確に近似できます。これらのコアセットはIRTトレーニングアルゴリズムで利用され、大規模なデータからスケーラブルな学習を容易にします。
統計
大規模なグローバル評価:PISAやインターネット調査では約600,000人以上の受験者が定期的にテストされている。
コアセットサイズ:コアセットサイズはオリジナルサイズの1%未満である。
実世界データ:SHAREおよびNEPSでは相対誤差0.05未満でメモリ使用量が6%未満。
引用
"IRT models aim to assess latent abilities of n examinees along with latent difficulty characteristics of m test items from categorical data that indicates the quality of their corresponding answers."
"To learn the latent variables in IRT models from large data, we leverage the similarity of these models to logistic regression, which can be approximated accurately using small weighted subsets called coresets."