CLIP自体が優れた空間-時間モデリング能力を持っているため、効率的な転移学習フレームワークを提案する。提案手法は、CLIPエンコーダの最後の数層に軽量なサイドブロックを再帰的に接続し、空間的特徴の適応的プーリングと時間相関の段階的な洗練を行う。