這篇研究論文探討了數據增強在自監督學習(SSL)中的作用,挑戰了傳統觀點,即增強主要用於將不變性編碼到學習的表示中。作者認為,增強可以超越這個目的,並證明了適當的增強可以引導優化過程學習任何非冗餘目標函數,直至仿射變換。
自監督學習近年來取得了顯著的進展,成為推動人工智能進步的基礎模型的支柱之一。與使用標籤不同,SSL 採用代理目標來學習表示,然後將其用於下游任務。特別是聯合嵌入方法越來越受歡迎,在下游分類、圖像分割和目標檢測方面取得了與監督表示學習相當的性能。這些技術鼓勵對不同視圖的不變表示,同時阻止表示的完全或維度崩潰。對於圖像,視圖通常是圖像的增強版本,常用的增強是隨機裁剪、高斯模糊和顏色失真。
數據增強的選擇對於 SSL 目標學習的表示至關重要。不同的下游任務受益於不同的不變性,因此可能需要不同的增強。例如,裁剪鼓勵對遮擋的不變性,但可能會對需要類別和視點不變性的下游任務產生負面影響。此外,某些增強有利於或不利於不同類別的下游分類,並且與姿勢相關的任務和與分類相關的任務可能會受益於相反的增強。以前的理論研究在很大程度上沒有解決這種微妙之處。相反,它們結合了關於數據和增強之間關係的假設,以專門為下游分類提供保證。
本文的主要結果是,對於 VICReg 和 Barlow Twins,任何目標表示 f* 都可以在數據上重建,直至仿射變換,前提是採用適當的增強。作者針對 VICReg 推導出了一個封閉形式的增強解決方案;對於 Barlow Twins,增強通過連續時間 Lyapunov 方程的解來表示。據我們所知,這些是針對增強學習問題提出的第一個解析解。
根據他們的理論分析,作者認為增強可以編碼的內容不僅僅是不變性。在命題 5.1 和 5.5 中,他們表明適當選擇的增強可以引導優化過程到 Rk ⊗H 的特定低維子空間,因此這些增強的性能取決於該子空間的屬性,而不是不變性本身。有趣的是,命題 5.1 和 5.5 都表明,即使是單個增強也可以學習良好的表示,並且這種增強不必與原始數據分佈一致,這與 Moutakanni 等人最近的觀察結果一致。
該研究為在自監督學習中理解和利用數據增強開闢了新的途徑。未來的研究方向包括探索計算效率、為算法 1 提供理論保證以及研究增強對不同架構和下游任務的影響。
翻譯成其他語言
從原文內容
arxiv.org
深入探究