本研究は、動画の時空間的な関係性を捉えることで、動画異常検知の精度を向上させる手法を提案する。具体的には、ビジョントランスフォーマーを用いて、動画パッチの空間的・時間的な順序を予測する自己教師あり学習手法を提案する。さらに、パッチ間の距離制約を導入することで、より深い時空間的特徴を学習できるようにする。
動画異常検知のための教師なし学習フレームワークを提案する。一クラス分類と弱教師付き学習モデルを交互に学習させ、動的しきい値調整を行うことで、人手による注釈なしで高精度な異常検知を実現する。