Core Concepts
自己教師学習による動画の順序付けを通じて、単調な時間変化を発見し、その変化の領域を特定することができる。
Abstract
本研究の目的は、画像シーケンスにおける単調な時間変化を発見し、その変化の領域を特定することである。これを達成するため、シャッフルされた画像シーケンスの順序付けを自己教師学習のプロキシタスクとして利用する。順序付けを行うことで、単調な時間変化に関連する手がかりを学習し、一方で周期的や偶発的な変化は無視することができる。
提案手法では、順序付けを行うための柔軟なトランスフォーマーベースのモデルを導入している。このモデルは、任意の長さの画像シーケンスの順序付けを行うことができ、同時に変化の領域を特定するための注意マップを出力する。
実験では、様々なドメインのデータセットを用いて評価を行った。その結果、提案手法は単調な時間変化を正確に発見・局在化することができ、既存手法を上回る性能を示した。また、順序付けの性能においても、標準ベンチマークで最先端の結果を得ることができた。
本研究の貢献は以下の4点である:
単調な時間変化の発見と局在化という新しいタスクの提案
任意長の画像シーケンスの順序付けと変化の局在化が可能なトランスフォーマーベースのモデルの提案
訓練時のドメインに依存せずに、新しい画像シーケンスの単調な変化を発見・局在化できる汎用性の実証
標準的な順序付けベンチマークにおける最先端の性能の実現
Stats
衛星画像データセットMUDSでは、単調な変化を含む領域の平均IoUが37.9%、Segment Anything Modelを用いると45.1%まで向上した。
動的ランダムドットステレオグラムデータセットでは、単調な変化の検出精度が99.8%に達した。
動物の隠れ行動データセットMoCaでは、単調な変化の検出精度が82.0%であった。
Quotes
"自己教師学習によるプロキシタスクとしての順序付けを通じて、単調な時間変化に関連する手がかりを学習し、一方で周期的や偶発的な変化は無視することができる。"
"提案手法では、任意の長さの画像シーケンスの順序付けを行うことができ、同時に変化の領域を特定するための注意マップを出力する。"