近年、大規模データ分析や機械学習の分野において、行列スケッチングが注目されています。行列スケッチングとは、𝑁個の長さを持つベクトルストリームで構成される行列𝑨∈R𝑁×𝑑を、より小さいスケッチ行列𝑩∈Rℓ×𝑑(ℓ≪𝑁)で近似することを目的としています。
従来のスライディングウィンドウにおける行列スケッチングアルゴリズムは、空間計算量が最適ではありませんでした。例えば、LM-FDは指数ヒストグラム(EH)フレームワーク内でFreqentDirectionsを適用し、DI-FDはFreqentDirectionsをDyadic Interval (DI)フレームワークと組み合わせることで、それぞれ𝑂(𝑑/𝜀2)と𝑂(𝑑/𝜀log(1/𝜀))の空間計算量を実現していました。しかし、これらの手法は、FreqentDirectionsを汎用的なスライディングウィンドウアルゴリズムフレームワークに組み込んでいるだけで、FreqentDirections自体をスライディングウィンドウ向けに最適化していないため、空間計算量が最適ではありませんでした。
本稿では、スライディングウィンドウ向けにFreqentDirectionsを改良し、最適化したDS-FDアルゴリズムを提案します。DS-FDは、行正規化されたシーケンスベースのスライディングウィンドウに対して、最適な空間計算量𝑂(𝑑/𝜀)を実現します。また、行が正規化されていない場合や、時間ベースのスライディングウィンドウの場合にも、それぞれ𝑂(𝑑/𝜀log𝑅)、𝑂(𝑑/𝜀log(𝜀𝑁))、𝑂(𝑑/𝜀log(𝜀𝑁𝑅))の空間計算量を実現します。
DS-FDアルゴリズムは、以下の特徴を持ちます。
本稿では、合成データセットと実世界のデータセットを用いて、DS-FDアルゴリズムの性能を評価しています。その結果、DS-FDアルゴリズムは、従来手法と比較して、スケッチのメモリ使用量において優れていることが確認されました。また、許容される共分散相対誤差の上限が厳しくなるほど、空間計算量の最適化が重要になることも明らかになりました。
本稿では、スライディングウィンドウにおける行列スケッチングのための決定論的アルゴリズムDS-FDを提案しました。DS-FDアルゴリズムは、従来手法よりも空間計算量が優れており、様々なスライディングウィンドウモデルにおいて最適な空間計算量を実現します。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문