核心概念
深度權重空間模型由於訓練資料集中神經網路視圖的多樣性不足,經常出現過度擬合的問題。本研究提出多種權重空間增強技術,特別是基於 MixUp 的方法,透過在訓練過程中生成新的神經網路視圖,有效地解決了過度擬合問題,並顯著提高了模型的泛化能力。
摘要
書目資訊
Shamsian, A., Navon, A., Zhang, D. W., Zhang, Y., Fetaya, E., Chechik, G., & Maron, H. (2024). Improved Generalization of Weight Space Networks via Augmentations. Proceedings of the 41st International Conference on Machine Learning, Vienna, Austria. PMLR 235, 2024.
研究目標
本研究旨在探討深度權重空間(DWS)模型中存在的過度擬合問題,並提出有效的解決方案以提升模型的泛化能力。
方法
- 研究人員首先分析了 DWS 模型過度擬合的原因,發現訓練資料集中缺乏多樣性是主要原因之一。
- 為了增加訓練資料的多樣性,研究人員提出了一系列針對 DWS 模型的資料增強技術,包括輸入空間增強、資料無關增強和基於神經網路結構的增強。
- 其中,研究人員重點介紹了三種基於 MixUp 方法的權重空間增強技術:直接權重空間 MixUp、基於對齊的權重空間 MixUp 和隨機權重空間 MixUp。
- 研究人員在三個 INR 資料集(FMNIST、CIFAR10 和 ModelNet40)上評估了所提出的增強技術的有效性,並與未使用增強技術的模型進行了比較。
主要發現
- 權重空間增強技術,特別是基於 MixUp 的方法,可以顯著提高 DWS 模型的準確性,最高可提升 18%,相當於使用 10 倍以上的訓練資料。
- 在自監督學習設定中,使用增強技術進行對比學習預訓練可以顯著提高下游分類任務的效能,提升幅度達 5-10%。
主要結論
- 訓練資料集中神經網路視圖的多樣性對於 DWS 模型的泛化能力至關重要。
- 權重空間增強技術可以有效地增加訓練資料的多樣性,從而提高模型的泛化能力。
- 基於 MixUp 的權重空間增強技術在提高 DWS 模型效能方面表現出色。
研究意義
本研究為解決 DWS 模型過度擬合問題提供了有效的解決方案,並為 DWS 模型的未來研究提供了新的方向。
局限性和未來研究方向
- 本研究主要關注於 INR 分類任務,未來可以進一步探討增強技術在其他 DWS 任務中的應用。
- 未來可以開發更先進的權重空間對齊演算法,以進一步提高基於對齊的 MixUp 方法的效能。
統計資料
使用基於 MixUp 的增強技術訓練的模型在 ModelNet40、FMNIST 和 CIFAR10 資料集上的準確性分別提高了 18%、10% 和 8%。
在自監督學習設定中,使用增強技術進行預訓練可以使下游分類任務的準確性提高 5-10%。
引述
"We argue that typical training workflows in DWS fail to represent the variability across different weight representations of the same object well."
"To address this issue, we first empirically study the effects of neural views on generalization to new objects and gain a key insight: training with multiple neural views improves generalization to unseen objects."
"Our results indicate that data augmentation schemes, and specifically our proposed weight space MixUp variants, can enhance the accuracy of weight space models by up to 18%, equivalent to using 10 times more training data."