本研究では、レジデュアル接続の構造が特徴表現の抽象化を阻害する可能性を指摘し、レジデュアル接続の寄与を徐々に減衰させる手法を提案している。
具体的には、レイヤー深さに応じて恒等写像ショートカットの寄与を単調減少させる手法を導入し、Masked Autoencoder (MAE)に適用することで、ImageNet-1Kデータセットにおける線形プローブ精度を67.3%から72.3%まで大幅に向上させている。
さらに、ImageNet-100データセットを用いた実験では、提案手法によりより抽象的な特徴表現が学習されることを確認している。特に、提案手法を適用したより小規模なViT-S/16モデルが、標準のレジデュアル接続を持つ大規模なViT-B/16モデルを上回る性能を示すことを明らかにしている。
本研究の成果は、深層学習モデルの設計において、特徴表現の抽象化を促進する観点から、レジデュアル接続の役割を再考する必要性を示唆している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Xiao Zhang,R... om arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.10947.pdfDiepere vragen