核心概念
本文介紹了三種改進迭代高斯過程超參數優化中線性系統求解器的方法,包括路徑梯度估計、熱啟動和提前停止,這些方法可以顯著提高計算效率和預測性能。
摘要
論文資訊
標題:提升迭代高斯過程中用於超參數優化的線性系統求解器
作者:Jihao Andreas Lin, Shreyas Padhy, Bruno Mlodozeniec, Javier Antorán, José Miguel Hernández-Lobato
會議:NeurIPS 2024
研究背景
高斯過程 (GPs) 是一種常用的機器學習模型,但其性能很大程度上取決於超參數的選擇。傳統上,超參數優化通過最大化邊緣似然函數來實現,但這需要計算成本高昂的核矩陣求逆。迭代方法通過使用線性系統求解器來近似求解線性系統,從而提高了高斯過程的可擴展性。然而,在大數據集上,這些求解器的收斂速度可能會很慢。
主要貢獻
本文重點介紹了三種可以應用於不同線性系統求解器的改進方法:
- 路徑梯度估計: 這種方法減少了求解器迭代的次數,並通過路徑條件化攤銷了進行預測的計算成本。
- 熱啟動: 使用上一步的解來初始化線性系統求解器,從而加快求解器的收斂速度,同時引入的偏差可以忽略不計。
- 提前停止: 在有限的計算預算後停止線性系統求解器,與熱啟動協同作用,允許求解器在多個邊緣似然步驟中累積求解進度。
實驗結果
實驗結果表明,這些方法可以顯著提高計算效率,在求解到容差時,平均速度提高了 72 倍。在有限的計算預算下,提前停止與熱啟動相結合可以顯著降低平均相對殘差範數。
主要結論
本文提出的三種改進方法可以顯著提高迭代高斯過程中超參數優化的效率和性能。路徑梯度估計和熱啟動可以顯著減少求解器迭代的次數,而提前停止與熱啟動相結合可以在有限的計算預算下提高求解器的性能。
未來研究方向
- 研究相對殘差範數作為求解器收斂度量的適用性。
- 探討其他可以進一步提高迭代高斯過程效率和性能的方法。
統計資料
使用路徑梯度估計器,在求解到容差時,平均速度提高了 72 倍。
在有限的計算預算下,提前停止與熱啟動相結合可以將平均相對殘差範數降低多達 7 倍。
使用 64 個探測向量代替 16 個探測向量只會將運行時間增加約 10%。
共軛梯度法 (CG) 的平均加速比為 2.1 倍。
交替投影法 (AP) 的平均加速比為 18.9 倍。
隨機梯度下降法 (SGD) 的平均加速比為 5.1 倍。
引述
"The linear system solver in the inner loop dominates the computational costs of marginal likelihood optimisation for iterative GPs."
"These techniques provide speed-ups of up to 72× when solving to tolerance, and decrease the average residual norm by up to 7× when stopping early."
"Surprisingly, good predictive performance can be obtained even if the residual norm is much higher than the tolerance."