本研究では、ビデオトランスフォーマーの内部表現を解釈可能な高レベルの概念に分解し、それらの重要性を定量化する手法を提案する。
具体的には以下の手順を踏む:
この手法を複数のビデオトランスフォーマーモデルに適用し、以下の知見を得た:
さらに、これらの概念は様々なタスクのモデル間で共通して見られることを示した。
最後に、発見された物体中心の概念をビデオオブジェクトセグメンテーションに応用し、良好な性能を示した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Matthew Kowa... a las arxiv.org 04-04-2024
https://arxiv.org/pdf/2401.10831.pdfConsultas más profundas