時間整列座標表現を採用することで、手作業のコンポーネントを排除しつつ、時間的アクション検出の性能を大幅に向上させる。
動画の自己縫合と多階層のクロススケールグラフネットワークを組み合わせることで、短時間のアクションの検出精度を大幅に向上させ、全体の時間的アクション検出精度も最先端レベルに達成する。
提案するDualDETRモデルは、インスタンスレベルとバウンダリーレベルの双方のクエリを用いて、時間的アクション検出の精度と境界位置の正確性を向上させる。