本文研究了資料庫管理系統中選擇性估計的機器學習問題。選擇性估計是查詢優化的關鍵,一直是資料庫領域的重要問題。
首先,本文證明了一類由符號測度誘導的選擇性預測函數是可學習的,這放寬了之前理論工作的假設。更重要的是,在一些溫和的假設下,本文還建立了這類預測函數在分佈外泛化的誤差界限,這超越了PAC學習框架的局限性。
基於這些新的泛化結果,本文提出了兩種新的學習策略:
NeuroCDF: 一種新的建模範式,利用神經網絡建模潛在的累積分佈函數(CDF),可以理論上保證更好的分佈外泛化性能。
SeConCDF: 一種通用的訓練方法,可以將CDF建模的思想融入現有的選擇性學習模型中,顯著提升模型的分佈外泛化能力,同時保持良好的分佈內泛化性能。
實驗結果表明,這兩種策略在單表和多表數據集上都能顯著提升現有選擇性學習模型的分佈外泛化性能,包括預測精度和查詢延遲。
翻譯成其他語言
從原文內容
arxiv.org
深入探究