المفاهيم الأساسية
ViC-MAE 模型結合遮罩自動編碼器 (MAE) 和對比學習,透過將短視頻視為時間增強,從圖像和視頻中學習有效的視覺表示,並在圖像和視頻分類任務中展現出優異的遷移學習性能。
الملخص
研究論文摘要
參考文獻: Hernandez, J., Villegas, R., & Ordonez, V. (2024). ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders. arXiv preprint arXiv:2303.12001v3.
研究目標: 本研究旨在開發一種名為 ViC-MAE 的自監督學習模型,該模型可以從圖像和視頻數據中學習有效的視覺表示,並有效地遷移到下游任務。
方法: ViC-MAE 結合了遮罩自動編碼器 (MAE) 和對比學習。在圖像級別,模型使用 MAE 重建損失來學習局部特徵。在時間級別,模型使用對比損失來對齊跨時間移位幀和增強視圖的表示。
主要發現:
- ViC-MAE 在 ImageNet-1k 上實現了 87.1% 的 top-1 準確率,優於現有的自監督視頻到圖像遷移學習方法。
- ViC-MAE 在 Something something-v2 視頻基準測試中獲得了 75.9% 的 top-1 準確率,證明了其在視頻分類任務中的有效性。
- 將短視頻視為時間增強比將圖像視為視頻更有效,同時仍然保留了時間表示。
- 使用較大的幀間隔(約 1.06 秒)進行訓練可以增強分類性能。
- 在訓練中包含負樣本對優於無負樣本訓練。
主要結論: ViC-MAE 是一種有效的自監督表示學習方法,可以在圖像和視頻分類任務中實現最先進的性能。該模型能夠學習捕獲圖像和視頻數據中時間和空間信息的魯棒表示。
意義: 這項研究通過引入一種新的自監督學習框架,為圖像和視頻理解做出了貢獻。ViC-MAE 的高效性和有效性使其成為各種下游應用程序的有希望的候選者。
局限性和未來研究: 未來的工作可以探索將 ViC-MAE 擴展到其他數據模態,例如文本和音頻。此外,研究使用更大和更多樣化的數據集對模型進行預訓練的效果將是有價值的。
الإحصائيات
ViC-MAE 在 ImageNet-1k 上的 top-1 準確率達到 86%,與最近提出的 OmniMAE 相比,絕對提升了 1.3%。
使用額外數據訓練時,ViC-MAE 在 ImageNet-1k 上的 top-1 準確率達到 87.1%,與 OmniMAE 相比,絕對提升了 2.4%。
ViC-MAE 在 Something something-v2 視頻基準測試中獲得了 75.9% 的 top-1 準確率。
اقتباسات
"Learning from video should also yield good image representations since videos naturally contain complex changes in pose, viewpoint, and deformations, among others."
"ViC-MAE, leads to reduced training times than video-masked models, while it demands more resources than a basic MAE (which processes 49 visual tokens at a 75% masking rate), it is more efficient (handling 98 tokens at the same rate) than heavier models like OmniMAE or ST-MAE (157 tokens at 90% rate)."