Core Concepts
関係データベースから有用な情報を抽出し、効率的な予測モデルを構築するための包括的なツールボックスを提案する。
Abstract
本論文では、関係データベース(RDB)のデータを活用した予測モデリングのための新しいベンチマークツールボックス「4DBInfer」を提案している。
まず、RDBから予測対象の値を推定する一般的な問題設定を定義する。次に、RDBデータをグラフ構造に変換し、効率的なサンプリング手法と予測モデルを組み合わせる2次元の設計空間を提案する。
さらに、RDBデータセットとタスクの多様性を考慮した新しいベンチマーク群を紹介する。これらのベンチマークは、大規模かつ時系列性のあるRDBデータを含み、実用的な予測問題をカバーしている。
最後に、提案した4次元の設計空間(データセット、タスク、グラフ抽出手法、予測モデル)に基づいて、4DBInferツールボックスを実装し、詳細な実験結果を示す。結果は、各次元の重要性を強調し、単純な表結合よりも複雑なアプローチの有効性を示している。
Stats
提案するベンチマークデータセットには、最大で20億行のデータが含まれている。
予測タスクには、クリック率予測、コンバージョン率予測、人気度予測などが含まれている。