畳み込みニューラルネットワークのアーキテクチャ誘導バイアスをビジョントランスフォーマーの注意メカニズムの初期化に組み込むことで、小規模データセットに対する高い学習効率を実現する。
ビジョントランスフォーマーのチャンネルミキサーを改善することで、パラメータ数とFLOPSを大幅に削減しつつ、精度を向上させることができる。