核心概念
畳み込みニューラルネットワークのアーキテクチャ誘導バイアスをビジョントランスフォーマーの注意メカニズムの初期化に組み込むことで、小規模データセットに対する高い学習効率を実現する。
要約
本論文は、ビジョントランスフォーマー(ViT)ネットワークが小規模データセットに対して十分な性能を発揮できない問題に取り組んでいる。
著者らは、畳み込みニューラルネットワーク(CNN)のアーキテクチャ誘導バイアスを、ViTの注意メカニズムの初期化に組み込むことで、小規模データセットに対する高い学習効率を実現する手法を提案している。
具体的には以下の取り組みを行っている:
- CNNにおける空間畳み込みフィルタの有効性を理論的に説明し、これがチャンネル混合の学習に帰着できることを示す
- ViTの注意メカニズムの初期化に、インパルスフィルタを用いた構造化された初期化手法を提案する
- この手法により、CNNのアーキテクチャ誘導バイアスをViTの初期化に組み込むことができる
- 提案手法は、CIFAR-10、CIFAR-100、SVHNなどの小規模データセットにおいて、従来手法に比べて2-4%の精度向上を達成する
- 一方で、大規模データセットであるImageNet-1Kでも従来手法と同等の性能を維持できることを示している
以上のように、本手法は小規模データセットに対するViTの学習効率を大幅に改善しつつ、大規模データセットでの性能も損なわれないという優れた特性を有している。
統計
畳み込みフィルタの線形独立な基底は f^2 個必要であり、入力の階層的な冗長性を満たせば、チャンネル混合の学習のみで十分な性能が得られる。
ViTの注意メカニズムにおける注意マップは、インパルスフィルタを用いた構造化された初期化により、畳み込み構造を保持できる。
引用
"CNNsの建築的な誘導バイアスをViTの初期化バイアスとして再解釈することができる。"
"我々の手法は、CNNのアーキテクチャ誘導バイアスをViTの注意メカニズムの初期化に組み込むことで実現している。"
"提案手法は、小規模データセットにおいて2-4%の精度向上を達成し、大規模データセットでも従来手法と同等の性能を維持できる。"