本論文は、時間的アクション検出(TAL)における大きな課題である、アクションの時間スケールの大きな変動に取り組むものである。特に短時間のアクションに着目し、動画の自己縫合グラフネットワーク(VSGN)と呼ばれる多階層のクロススケールソリューションを提案している。
VSS(動画の自己縫合)コンポーネントでは、短い動画クリップを時間方向に拡大し、元のクリップと縫合することで、異なるスケールの特徴を活用する。xGPN(クロススケールグラフピラミッドネットワーク)コンポーネントでは、同一スケールおよび異なるスケールの特徴を集約する多階層のグラフネットワークを用いる。
これにより、短時間アクションの検出精度を大幅に向上させつつ、全体の時間的アクション検出精度も最先端レベルに達成している。これは時間的アクション検出における短時間アクションの問題に初めて取り組んだ研究であり、大きな成果を上げている。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Chen Zhao,Al... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2011.14598.pdfสอบถามเพิ่มเติม