Grunnleggende konsepter
ビジョントランスフォーマー(ViT)の計算コストを削減するため、トークンの意味的関連性に基づいてトークンを効率的にクラスタリングする新しい手法「セマンティック均等クラスタリング(SEC)」を提案する。
Sammendrag
セマンティック均等クラスタリング(SEC)を用いたビジョントランスフォーマーの効率化
本論文は、ビジョントランスフォーマー(ViT)におけるSelf-Attentionの計算コストを削減するため、新しいトークンクラスタリング手法であるセマンティック均等クラスタリング(SEC)を提案しています。
ViTは優れた関係モデリング能力を持つ一方、Self-Attentionの計算量がトークン数の二乗に比例するため、計算コストが大きな課題となっています。従来のトークングルーピング手法は、計算コスト削減のためにトークンを空間的にグループ化するものの、トークンの意味情報は考慮されていませんでした。
SECは、トークンのグローバルな意味的関連性に基づいてトークンを効率的かつバランス良くクラスタリングする手法です。
SECの特徴
意味情報の考慮: グローバルプーリングを用いて生成されたグローバルトークンと他のトークンとの類似度を計算することで、トークンの意味的関連性を考慮します。
単一パスでのクラスタリング: 従来のk-means法のように複数回の反復を必要とせず、単一パスでトークンクラスタリングを実現します。
均等なトークン分散: 各クラスタ内のトークン数を調整し、効率的な並列処理を可能にする均等なトークン分散を実現します。
SECの動作原理
入力トークン全体の平均プーリングを行い、グローバルトークンを生成します。
グローバルトークンと各トークンとのコサイン類似度を計算し、類似度行列を取得します。
類似度スコアに基づいてトークンをソートし、類似スコアを持つトークンをグループ化してクラスタを形成します。
各クラスタ内で標準的なSelf-Attentionを適用し、トークン間の情報交換を行います。