מושגי ליבה
本文提出了一種基於 Huber-energy 測度的量化方法 (HEMQ),用於以有限個 Dirac 質量逼近目標機率分佈(或更廣泛的有界變分測度)。
תקציר
基於 Huber-energy 測度的量化方法研究
本文介紹了一種基於 Huber-energy 測度的量化方法 (HEMQ),用於以有限個 Dirac 質量逼近目標機率分佈(或更廣泛的有界變分測度)。該方法通過最小化原始測度与其量化版本之間的統計距離來實現,其中統計距離由負定核函數定義。文章探討了最佳測度量化器的存在性等基本問題,並確定了保證適當行為所需的核函數特性。作者提出了兩種用於估計平方統計距離的最佳線性無偏估計器 (BLUE),並將其用於 HEMQ 方法中,以找到最佳量化。文章在多維高斯混合模型、維納空間求積、義大利葡萄酒品種和 MNIST 圖像數據庫等多個數據庫上測試了 HEMQ 方法,結果表明 HEMQ 算法具有穩健性和通用性,並且對於 Huber-energy 核函數類別,其表現符合預期的直觀行為。
1.1 動機
在許多科學領域中,處理以有限變分測度(例如機率分佈)描述的不確定性至關重要。然而,只有極少數情況下可以找到解析解,而數值方法通常用一些離散版本來代替精確對象。本文分析了一種文獻中不常考慮的離散化維度,即測度量化,即通過 Dirac 質量和來描述集合 X 上的有限總變分測度 µ,其中 Q 是用戶指定的整數,作為離散化參數,αq 是實數(權重),xq ∈ X 是 Dirac 質量的位置。權重 αq 和 xq 的選擇應確保 δα,X 根據稍後定義的度量 d(·, ·) 接近 µ。
基於最佳線性無偏估計器 (BLUE),我們構建了一種稱為 HEMQ 的無偏方法,該方法最小化 d(µ, δα,X) 相對於 α 和 X 的距離,或者在 α 固定時僅相對於 x 的距離,其中均勻分佈 αq = 1/Q 是一個值得注意的例子。距離 d(·, ·) 由負定核函數 h(·, ·) 構建,可以動態計算並輸入到隨機優化算法(例如 SGD、Adam 等)。這允許即使在 Q 值較高的情況下也能以低內存需求工作;核函數的解析特性經過調整,以兼容現代硬件(如 GPU),這些硬件以低精度浮點計算為代價提供了顯著的速度提升。
儘管文獻中已經討論了類似的方法(見下一節),但對於諸如最小化器的存在性等基本問題的通用答案仍然缺乏;為了解決這些問題,我們在第 2 節和第 4 節中給出了幾個理論結果,以確定確保便捷行為的核函數特性。我們在第 3 節中介紹了兩種平方距離的估計器,並首次證明了它們是 BLUE。在第 5 節中,HEMQ 方法在多個數據庫上進行了測試:多維高斯(和高斯混合模型)、義大利葡萄酒數據集和 MNIST 圖像數據庫。獲得了令人滿意的結果,說明了該方法的潛力。
1.2 與文獻的關係
通過有限個 Dirac 質量來描述測度這一問題已經在文獻中的特定背景下得到解決。我們在下面給出了一些指向這些工作的入口點。
1.2.1 向量量化
文獻中包含許多關於測度的向量量化的信息和方法,參見 Graf 和 Luschgy (2007);Kreitmeier (2011);Pagès (2018)。在向量量化中,目標是將數據劃分為多個簇,每個簇由其質心點表示。一些應用是 K 均值和更通用的聚類算法。
與我們的方法的區別在兩個方面:首先,所涉及的距離不同:在向量量化中,相關的距離與 Wasserstein-Kantorovich 度量有關(參見 Graf 和 Luschgy (2007)[第 3 節,第 30 頁和第 34 頁] 以及 Kreitmeier (2011)),而這裡我們使用的是基於核函數的距離。這引發了不同的理論問題;此外,核函數的存在使得我們對距離的計算與向量量化的情況截然不同,在向量量化中,Voronoi 圖的概念至關重要。請注意,Voronoi 圖與正測度有著內在的聯繫,而在我們的情況下,測度只需要有界變分。當已經進行了部分壓縮並且只想改進它時,以及對於一般的符號測度,這一點非常方便。
最後一個區別是,Voronoi 單元的權重不是先驗已知的(即,是經過優化的),而在我們的方法中,這些權重(上面表示為 αq)可以被認為是固定的(例如,均勻的)或需要優化的。
當壓縮分佈的基數很大時,此過程會失去效率,因為它需要考慮整個碼向量集,而不能僅對其中的一部分進行採樣(然而,請參見 Guo 等人 (2020);Aumueller 等人 (2022);Chazal 等人 (2021) 的替代方法);相反,我們的過程允許(如果需要)一次只處理一個子樣本,從而將內存需求從 Q2(量化集的完整大小)減少到 B2(B 是批量樣本)。
1.2.2 核向量量化和“神經氣體”
一種相關的方法是 Vilmann 等人的核化向量量化,參見 Villmann 等人 (2015),他們使用自組織映射技術來實現量化。從技術角度來看,他們要求核函數是可微的和通用的,或者它基於某種散度。量化本身主要用於聚類。
另見 Chatalic 等人 (2022),他們使用了隨機量化(即,點是隨機變量)。
一種相關的方法是“神經氣體”算法,參見 Martinetz 和 Schulten (1991),該算法也使用質心並根據“鄰域”規則對其進行調整。
同樣在聚類的總體領域,能量核函數(正是我們在這項工作中作為一個重要的特例使用的核函數)已經在 Szekely 等人 (2005) 和 Li (2015) 中使用;他們(引用)“計算簇之間的能量距離,並在每一步合併具有最小能量距離的簇”。儘管這沒有被形式化為 Borel 測度的 Hilbert 空間嵌入,但這種方法是相關的。他們還在(Szekely 等人,2005 年,第 2.2 節)中證明了一個統計一致性結果,並表明對於有限批量樣本需要進行校正(見下文第 5 節)。