核心概念
動画フレームとアクションクラスの間の(ノイズの多い)類似度行列を入力として、時間的に整合性のある分割を出力するための最適輸送問題を解く。
摘要
本論文は、長尺で無トリミングの動画におけるアクション分割タスクに取り組む新しい手法を提案する。
- 動画フレームとアクションクラスの間の類似度行列を入力として、時間的に整合性のある分割を出力するための最適輸送問題を解く。
- 時間的整合性を表現するためにGromov-Wasserstein最適輸送を導入し、不均衡な割り当てを許容することで長尾分布のアクションクラスにも対応する。
- 提案手法ASOTは、既存の隠れマルコフモデルベースの手法と異なり、アクションの順序を事前に知る必要がなく、順序変動や繰り返しアクションにも対応できる。
- 無監督学習パイプラインにASOTを組み込むことで、最先端の結果を達成する。
- 監督学習タスクにおいても、ASOTは後処理手法として有効であることを示す。
統計資料
動画フレームとアクションクラスの類似度行列は、フレーム特徴量とアクション埋め込みの内積から計算される。
時間的整合性を表現するためのGromov-Wasserstein行列は、隣接フレームの距離と異なるアクションへの割り当てに罰則を与える形で定義される。
引述
"我々は、長尺で無トリミングの動画におけるアクション分割タスクに取り組む新しい手法を提案する。"
"提案手法ASOTは、既存の隠れマルコフモデルベースの手法と異なり、アクションの順序を事前に知る必要がなく、順序変動や繰り返しアクションにも対応できる。"
"無監督学習パイプラインにASOTを組み込むことで、最先端の結果を達成する。"