本研究では、ビデオフレームと属性セットを入力として、ビデオベースの歩行者属性認識をマルチモーダルな融合問題として定式化し、事前学習された多モーダル基盤モデルCLIPを効率的に微調整するための新しい時空間側チューニング戦略を提案する。