物体状態変化(OSC)の3つの段階(初期状態、遷移状態、終了状態)を時間的に局在化することが、ビデオ理解の重要な課題である。従来のアプローチは閉じた語彙に限定されていたが、本研究では、未知の物体に対しても一般化できる新しい「オープンワールド」の問題設定を提案する。
動的なビデオコンテンツの変化に適応しながら、エッジ推論コストを最小化し、精度と帯域幅の制約を満たすことを目的とする。