核心概念
CLIMBERは、大規模データシリーズに対する近似類似検索の精度を80%まで向上させながら、スケーラビリティも維持する新しい手法を提案する。
要約
本論文では、大規模データシリーズに対する効率的な近似類似検索手法CLIMBERを提案する。
CLIMBERは以下の3つの主要コンポーネントから構成される:
- 特徴抽出メカニズム(CLIMBER-FX)
- データシリーズをPAA(Piecewise Aggregate Approximation)で低次元化する
- 新しい双対表現(rank-sensitive and rank-insensitive signatures)を生成する
- インデックス構造(CLIMBER-INX)
- 2階層のインデックス構造を持つ
- 1階層目はrank-insensitive signatures に基づくデータグループ化
- 2階層目はrank-sensitive signatures に基づくデータパーティション化
- クエリ処理アルゴリズム
- CLIMBER-kNN: 効率的な近似kNN検索アルゴリズム
- CLIMBER-kNN-Adaptive: 検索結果の精度が低い場合に検索範囲を自動的に拡張するアルゴリズム
実験結果により、CLIMBERは既存手法と比べて大幅に高い精度(80%)を達成しつつ、テラバイトスケールのデータに対するスケーラビリティも維持できることが示された。
統計
データシリーズ1件あたり約1GBのデータが生成される
宇宙シャトルから1日あたり約2GBのデータシリーズが生成される
既存手法の精度は最大でも40%程度しかない
引用
"既存手法は主にスケーラビリティの向上に焦点を当てており、精度の向上は二の次となっている。"
"CLIMBERは、スケーラビリティと精度の両立を第一の目標としている。"