本文提出了一種名為Caterpillar的純MLP架構,其核心在於引入了移位柱子串聯(SPC)模塊。SPC模塊包括兩個步驟:
柱子移位(Pillars-Shift):將輸入圖像沿四個方向(上、下、左、右)移位,生成四個鄰近特徵圖。這樣可以將每個柱子的局部信息分解到四個不同的方向群組中。
柱子串聯(Pillars-Concatenation):對這四個移位特徵圖分別進行線性變換,然後串聯起來,從而實現對每個柱子的局部特徵的精細和並行編碼。
Caterpillar架構將SPC模塊與稀疏MLP(sMLP)模塊結合,前者負責局部特徵建模,後者負責全局特徵聚合,從而在保持局部和全局信息平衡的同時,大幅降低了計算複雜度。
在小型圖像分類數據集上,Caterpillar系列模型均優於同類型的CNN、Transformer和MLP模型。在ImageNet-1K基準測試中,Caterpillar-B也取得了與最新SOTA方法相當的出色成績(83.7%)。此外,Caterpillar還展現了出色的可擴展性和遷移學習能力。
總的來說,Caterpillar提出了一種新穎的純MLP架構,通過SPC模塊有效地捕捉局部特徵,在各種圖像分類任務中均取得了出色的性能。
翻譯成其他語言
從原文內容
arxiv.org
深入探究