本研究は、動画の時空間的な関係性を捉えることで、動画異常検知の精度を向上させる手法を提案する。具体的には、ビジョントランスフォーマーを用いて、動画パッチの空間的・時間的な順序を予測する自己教師あり学習手法を提案する。さらに、パッチ間の距離制約を導入することで、より深い時空間的特徴を学習できるようにする。