ビジョントランスフォーマーの活性化マップとソフトマックス注意の各チャンネルおよびトークンを、入力インスタンスに応じて動的にグループ化することで、チャンネルおよびトークン間の大きなスケールの違いに対処する。