本研究は、ドローンによる空中撮影映像の未来シーンと対象物の動作状態を同時に予測する新しいタスクを提案している。従来の映像予測手法は主に全体的なシーンの変化を予測するのに対し、本手法は対象物の動作状態も同時に予測することで、より統合的な時空間予測を実現する。
具体的には以下の3つの主要な設計が行われている:
空間的注意と時間的注意を分離したSpatialtemporal Attention (STA)により、シーンの外観と動きを効果的にモデル化する。
2種類のメッセンジャートークンを用いた情報共有メカニズム(ISM)により、映像情報と対象物の動作状態情報を効果的に融合する。
対象物の周辺領域に重点を置いたTarget-Sensitive Gaussian Lossにより、対象物の位置と内容の予測精度を向上させる。
これらの設計により、TAFormerは空中撮影映像の未来シーンと対象物の動作状態を高精度に同時に予測することができる。実験結果では、従来手法と比較して優れた性能を示している。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Liangyu Xu,W... um arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18238.pdfTiefere Fragen