Core Concepts
注意層の情報量を分析し、低情報量の注意層を後続のMLPレイヤーに統合することで、視覚変換器のパフォーマンスを低下させずに効率化できる。
Abstract
本研究は、視覚変換器の注意層の情報量を分析し、低情報量の注意層を後続のMLPレイヤーに統合することで、視覚変換器の効率化を図る手法を提案している。
具体的には以下の通り:
注意層とMLPレイヤーのエントロピー量を分析し、底部ブロックの注意層は低エントロピーであり、対応するMLPレイヤーも同程度の情報量であることを発見した。
そこで、低情報量の注意層をMLPレイヤーに統合する手法を提案した。注意層の出力を徐々に0に近づけることで、注意層を恒等写像に退化させ、residual connectionとともにMLPレイヤーに統合する。
注意層の統合対象を選択するために、注意層とネットワーク出力層の相互情報量(transfer entropy)に基づく選択戦略(NOSE)を提案した。これにより、パフォーマンス低下を最小限に抑えつつ注意層を削減できる。
ImageNet-1k、CIFAR-100、ADE20kのベンチマークで評価した結果、提案手法はパフォーマンス低下なしに注意層を40%削減でき、メモリ使用量と演算量を大幅に削減できることを示した。
提案手法で学習した特徴マップは、高周波成分の振幅が大きくなることを確認し、特徴表現力の向上を示唆した。
Stats
DeiT-Bモデルの注意層と後続MLPレイヤーのエントロピー量を比較したところ、底部ブロックの注意層のエントロピー量が低いことが分かった。
注意層を1~5個ランダムに削除した場合、モデルのパフォーマンスと相互情報量(transfer entropy)が逆相関することが分かった。
Quotes
"我々は注意層の情報量を移植することで、対応するMLPレイヤーをより表現力の高いものに最適化できる。"
"注意層と最終出力層の相互情報量(transfer entropy)に基づいて、パフォーマンス低下を最小限に抑えつつ注意層を削減する選択戦略(NOSE)を提案した。"