Core Concepts
オンラインアルゴリズムは、データ保持の厳しい制限の下でも、データの適応的な選択的保持によって、最適なアルゴリズムと同等のパフォーマンスを達成できる。
Abstract
本論文は、オンラインアルゴリズムに対する厳しいデータ保持制限の下での性能について検討している。
具体的には以下の通り:
オンラインアルゴリズムは、ストリームで受け取るデータポイントを一定期間(m ラウンド)のみ保持でき、それ以降は削除しなければならない。
アルゴリズムは、ラウンド間でデータ以外の状態を保持することはできない。
このような制限の下で、平均推定や線形回帰などの統計タスクを行う際の性能を分析した。
単純なベースラインアルゴリズム(可能な限りデータを保持する)では、最適アルゴリズムと同等の性能を得るためにはデータを長期間保持する必要がある。
一方で、提案アルゴリズムでは、データの適応的な選択的保持によって、最適アルゴリズムと同等の性能を、はるかに少ないデータ保持期間(多項式オーダー)で達成できることを示した。
これは、データ削除要求に応じても、アルゴリズムが削除されたはずのデータに関する情報を保持し続けられることを示唆している。
Stats
平均推定タスクでは、T > Cd/ǫ かつ m ≥ Cd log(d/ǫ) であれば、期待二乗誤差がǫ以下になる。
線形回帰タスクでは、T > Cd/ǫ かつ m ≥ Cd^2 log(d) log(d/ǫ) であれば、期待二乗誤差がǫ以下になる。