核心概念
生成式邊緣化模型 (MAM) 透過直接建模所有邊緣分佈,實現了高效且可擴展的生成式建模,並在最大似然估計和基於能量的訓練中均展現出優於自回歸模型的性能。
摘要
生成式邊緣化模型:一種適用於高效邊緣推斷的可擴展生成式模型
本文介紹了邊緣化模型 (MAM),這是一種用於高維離散數據的新型生成式模型。它們通過顯式建模所有誘導邊緣分佈,提供可擴展且靈活的生成式建模。邊緣化模型能夠通過神經網絡的單次前向傳遞快速逼近任意邊緣概率,這克服了任意邊緣推斷模型(例如任意順序自回歸模型)的主要限制。MAM 還解決了在基於能量的訓練環境下訓練高維問題的任意順序生成式模型時遇到的可擴展性瓶頸,其中目標是使學習到的分佈與給定的期望概率(由非規範化對數概率函數指定,例如能量或獎勵函數)。本文提出了基於“邊緣化自洽性”概念的可擴展方法來學習邊緣。本文在最大似然估計和基於能量的訓練設置下,在各種離散數據分佈(包括圖像、文本、物理系統和分子)上證明了所提出模型的有效性。MAM 在兩種設置下評估邊緣概率的速度都提高了幾個數量級。對於基於能量的訓練任務,MAM 使得高維問題的任意順序生成式建模能夠超越以前方法的規模。代碼可在 github.com/PrincetonLIPS/MaM 獲取。
深度生成式模型在圖像生成、音頻合成、自然語言建模和科學發現等多個領域取得了顯著進展。然而,仍然迫切需要更好地支持對涉及邊緣概率 p(xS) 和條件概率 p(xU|xV) 的關鍵問題進行高效的概率推斷,其中 S、U、V 是變量的適當子集。在異常值或機器生成內容檢測 [59, 48]、掩碼語言建模 [15, 85]、圖像修復 [86] 和約束蛋白質/分子設計 [81, 65] 等應用中,直接處理此類量的能力至關重要。此外,對變量的任意子集進行此類推斷的能力使用戶能夠根據他們的特定需求和偏好利用模型。例如,在蛋白質設計中,科學家可能希望在相關變量的特定路徑下,從用戶定義的子結構手動指導蛋白質的生成。這就要求生成式模型執行任意的邊緣推斷。
為此,神經自回歸模型 (ARM) [3, 38] 基於將高維聯合分佈建模為使用概率鏈規則的單變量條件分解的思想,在條件/邊緣推斷方面表現出色。在最大似然估計 (MLE) [38, 78, 24] 的設置下,人們已經做出了許多努力來擴展 ARM 並實現任意順序生成式建模,並且在掩碼語言建模 [85] 和圖像修復 [24] 等應用中取得了很大進展。然而,使用最廣泛使用的現代神經網絡架構(例如,Transformers [80] 和 U-Nets [62]),在 D 個變量的序列上進行邊緣似然評估受到 O(D) 神經網絡傳遞的限制。這種縮放使得難以評估自然語言和蛋白質等數據中出現的長序列的似然性。除了 MLE 之外,基於能量的訓練 (EB) 設置最近因其在科學領域的應用而受到越來越多的關注 [49, 12, 35]。我們只能訪問一個非規範化的(對數)概率函數(由獎勵或能量函數指定),該函數可以在點上進行評估,以供生成式模型匹配,而不是經驗數據樣本。在這種情況下,ARM 僅限於固定順序的生成式建模,並且在訓練中缺乏可擴展性。為 MLE 擴展條件訓練而開發的子採樣技術在基於能量的訓練中匹配對數概率時不再適用(有關詳細信息,請參見第 4.3 節)。
為了增強離散數據生成式建模的可擴展性和靈活性,本文提出了一種新的生成式模型系列,即邊緣化模型 (MAM),它直接對任意變量子集 xS 在 x 中的邊緣分佈 p(xS) 進行建模。直接訪問邊緣有兩個重要優勢:1)顯著加快對任何邊緣的推斷速度,以及 2)在 MLE 和 EB 設置下實現任意順序生成式模型的可擴展訓練。
該模型的獨特結構使其能夠同時表示給定離散聯合概率質量函數的所有邊緣分佈的耦合集合。為了使模型有效,它必須與概率求和規則一致,我們將這種條件稱為“邊緣化自洽性”(見圖 2);學習使用可擴展的訓練目標來強制執行這一點是這項工作的關鍵貢獻之一。
本文證明了 MAM 可以在最大似然估計和基於能量的訓練設置下使用可擴展的學習目標進行訓練。本文在各種離散數據分佈(包括二進制圖像、文本、物理系統和分子)上證明了 MAM 在兩種設置下的有效性。本文憑經驗表明,MAM 在邊緣似然評估中實現了數量級的速度提升。對於基於能量的訓練,MAM 能夠將任意順序生成式模型的訓練擴展到以前方法無法實現的高維問題。