核心概念
本文證明了基於行列式點過程 (DPP) 的核心集,在機器學習模型訓練中,可以比獨立抽樣方法更有效率地逼近完整資料集的損失函數。
摘要
小型核心集透過負相關性:行列式點過程、線性統計量和集中不等式
本研究旨在探討基於行列式點過程 (DPP) 的核心集在機器學習模型訓練中的有效性,並試圖證明其相較於獨立抽樣方法的優越性。
本文首先回顧了行列式點過程 (DPP) 和核心集的基本概念,並將核心集的損失函數理解為點過程的線性統計量。
接著,本文推導出適用於非常通用的 DPP 的線性統計量集中不等式,包括非對稱核心和向量值線性統計量。
基於這些集中不等式,本文證明了使用適當的 DPP 可以產生大小為 o(ε−2) 的核心集,優於獨立抽樣。
最後,本文通過模擬實驗,比較了不同核心集抽樣方法在 k-means 聚類問題上的性能,驗證了基於 DPP 的核心集的優越性。