核心概念
本文提出了一種名為IB-MHT的方法,可以在現有資訊瓶頸(IB)求解器的基礎上,提供統計保證,確保所學習的特徵滿足資訊理論約束。
摘要
本文介紹了IB-MHT,這是一種統計有效的方法,用於解決資訊瓶頸(IB)問題。IB是一個廣泛研究的機器學習框架,用於提取對下游任務有信息量的壓縮特徵。
IB-MHT的主要步驟如下:
- 使用優化數據集DOPT估計帕累托前沿,得到候選超參數集ΛOPT。
- 使用檢驗數據集DMHT,對ΛOPT中的超參數進行序列化的家族-wise錯誤率(FWER)控制多重假設檢定,得到最終超參數集ΛMHT。
- 從ΛMHT中選擇最小化I(X;T)的超參數λ*。
與傳統方法相比,IB-MHT可以保證所選超參數λ*滿足I(T;Y)≥α的約束,且具有較低的變異性。實驗結果驗證了IB-MHT在統計穩健性和可靠性方面優於傳統方法。
统计
對於經典IB問題(2),IB-MHT滿足I(T;Y)≥2.28的約束的概率為0.94,而傳統IB方法只有0.73。
對於確定性IB問題(3),IB-MHT滿足I(T;Y)≥2.28的約束的概率接近1,而傳統IB方法為0.74。
IB-MHT得到的I(X;T)的標準差顯著小於傳統IB方法,分別為0.01和0.05(經典IB問題)、0.002和0.01(確定性IB問題)。