Основные понятия
データベースクエリのパラメータが結果に与える影響を定量化するために、ゲーム理論に基づくShapley値を用いてパラメータの重要度を測定する方法を提案する。
本稿は、データベースクエリ結果に対するパラメータ値の重要性を定量化するフレームワークを提案および考察する研究論文である。
研究背景
データベースクエリのパラメータは、その結果に大きな影響を与える可能性があり、パラメータの選択が適切でなかったり、恣意的であったりする場合、結果の信頼性が損なわれる可能性がある。例えば、商業アプリケーション(衣料品、旅行、不動産など)で商品を検索する際に、複雑なパラメータを設定すると、検索結果が少なすぎたり、逆に高額なものばかりになったりする可能性がある。このような場合、入力したパラメータ値が、検索結果の不足にどの程度影響しているかを把握する必要がある。
研究目的
本稿では、クエリ結果に対する個々のパラメータ値の重要性を測定するための、原則に基づいた定量的尺度を確立することを目的とする。
研究方法
パラメータの重要度を測定するために、ゲーム理論で広く用いられるShapley値を採用する。
Shapley値を適用するために、(a) パラメータ値の組み合わせに対する確率分布、(b) 元のパラメータでの結果と仮説的なパラメータでの結果の間の類似性を測定する効用関数、の2つの要素を導入する。
異なる確率分布と類似度尺度に対するShapley値の計算複雑性を分析する。
特に、特定の(自然な)類似度関数に対して、完全非循環連言質問の場合に多項式時間で計算可能なアルゴリズムを考案する。
パラメータ化されたフィルタ(例えば、変数とパラメータ間の不等式)を持つ連言質問に結果を拡張する。
また、「なぜないのか」の説明(クエリ結果の欠如を説明することを目的とする)への結果の適用についても例示する。ここでは、考慮中の非回答の排除に対するクエリ構成要素の寄与を定量化するタスクを検討する。
最後に、相関パラメータの場合の簡単な近似手法について議論する。
研究結果
Shapley値を用いることで、クエリ結果に対するパラメータの重要度を定量化できることを示した。
特定の類似度関数と完全非循環連言質問の場合、Shapley値は多項式時間で計算可能であることを示した。
パラメータ化されたフィルタを持つ連言質問や、「なぜないのか」の説明といった拡張についても考察し、有効性を示した。
結論
本稿では、データベースクエリ結果に対するパラメータの重要性を定量化するためのShapley値に基づくフレームワークを提案した。このフレームワークは、クエリ結果の解釈や説明可能性の向上に貢献する可能性がある。