大規模データクラスタリングにおける収束時間と精度のトレードオフ
大規模データセットに対するk-meansおよびk-medianクラスタリングの理論的および実践的な実行時間の限界を研究する。データを迅速に圧縮し、圧縮表現でクラスタリングを行うのが最も高速なアプローチであるが、圧縮の程度を決める最適な選択肢はない。ランダムサンプリングは高速だが精度が保証されず、コアセットは理論的保証を提供するが、データ量や クラスタ数が増えるにつれ遅くなる。本研究では、ほぼ線形時間でコアセットを構築できる新しいアルゴリズムを提案し、様々なデータセットや設定でのサンプリング手法の速度と精度のトレードオフを明らかにする。