本研究では、ビデオトランスフォーマーの内部表現を解釈可能な高レベルの概念に分解し、それらの重要性を定量化する手法を提案する。
具体的には以下の手順を踏む:
この手法を複数のビデオトランスフォーマーモデルに適用し、以下の知見を得た:
さらに、これらの概念は様々なタスクのモデル間で共通して見られることを示した。
最後に、発見された物体中心の概念をビデオオブジェクトセグメンテーションに応用し、良好な性能を示した。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies