핵심 개념
ビデオトランスフォーマーの内部表現を解釈可能な高レベルの概念に分解し、それらの重要性を定量化する。
초록
本研究では、ビデオトランスフォーマーの内部表現を解釈可能な高レベルの概念に分解し、それらの重要性を定量化する手法を提案する。
具体的には以下の手順を踏む:
- ビデオ特徴マップをSLICクラスタリングによりスペースタイムのチューブレットに分割する。
- チューブレットをクラスタリングし、高レベルの概念を発見する。
- 概念の重要性を定量化するため、概念をランダムにマスクしてモデルの出力への影響を測る手法を提案する。
この手法を複数のビデオトランスフォーマーモデルに適用し、以下の知見を得た:
- 早期層では空間的・時間的な基底表現が学習されている
- 中間層では物体中心の表現が学習されている
- 後期層では微細な時空間概念が学習されている
さらに、これらの概念は様々なタスクのモデル間で共通して見られることを示した。
最後に、発見された物体中心の概念をビデオオブジェクトセグメンテーションに応用し、良好な性能を示した。
통계
ビデオトランスフォーマーモデルの層ごとの概念の重要性は以下の通りである:
TCOW - VOS: 3層が最も重要、最終層が最も重要度が低い
VideoMAE - AR: 中間層(6層)と最終層(12層)が最も重要