核心概念
我們提出以更一般的學習葉層結構來補充學習流形的概念。由數據信息矩陣(DIM)定義的可積分分布D允許根據Frobenius定理將數據空間劃分為葉層。實驗表明,數據點與葉層有相關性:沿著分布D移動,即沿著葉層移動,模型給出有意義的標籤,而在正交方向移動則導致分類錯誤越來越大。學習葉層雖然存在奇異性(秩下降)和非光滑性,但我們證明奇異點包含在零測度集中,因此學習葉層在數據空間中仍具有幾何意義。我們展示了訓練模型的數據集中的點具有較低的DIM特徵值,因此分布D可以成功地確定樣本是否屬於訓練集。我們還使用DIM的最低特徵值來衡量數據集之間的距離,並通過在不同數據集上重新訓練模型來測試所提出的距離。我們的結果在定量上還不太conclusive,但作為超越流形假設並利用奇異葉層理論進行降維和知識轉移的第一步,展現了巨大的潛力。
摘要
本文提出了一種更一般的學習葉層結構的概念,以補充學習流形的概念。作者定義了數據信息矩陣(DIM),這是Fisher信息矩陣在數據空間的推廣。DIM定義了一個可積分分布D,根據Frobenius定理,它允許將數據空間劃分為葉層。
實驗表明,數據點與葉層有相關性:沿著分布D移動,即沿著葉層移動,模型給出有意義的標籤,而在正交方向移動則導致分類錯誤越來越大。然而,學習葉層存在奇異性(秩下降)和非光滑性。
作者證明,奇異點包含在零測度集中,因此學習葉層在數據空間中仍具有幾何意義。他們發現,訓練模型的數據集中的點具有較低的DIM特徵值,因此分布D可以成功地確定樣本是否屬於訓練集。
作者還使用DIM的最低特徵值來衡量數據集之間的距離,並通過在不同數據集上重新訓練模型來測試所提出的距離。雖然結果在定量上還不太conclusive,但這是一個很有前景的方向,可以超越流形假設,利用奇異葉層理論進行降維和知識轉移。
统计
在MNIST數據集上,訓練集中的點的Jacobian矩陣JN的奇異值較小。
不同數據集(MNIST、KMNIST、Letters、FashionMNIST、CIFARMNIST)的DIM最低特徵值存在差異,反映了它們之間的距離。
在MNIST模型的基礎上,重新訓練最後一層得到的驗證準確率與DIM最低特徵值存在對應關係。