本研究は、時間的アクション検出(TAD)のためのDETRベースのアプローチにおける注意の崩壊問題に取り組んでいる。
まず、DETRのクロス注意が注意の崩壊に悩まされていることを発見した。これは、予測と注意マップのパターンが大きく異なることから、ショートカットの現象が起きていることを示唆している。
そこで、本研究では新しいフレームワーク「Prediction-Feedback DETR (Pred-DETR)」を提案する。Pred-DETRは、予測からのフィードバックを利用することで注意の崩壊を緩和する。具体的には、予測の交差IoU関係を用いて、クロス注意とセルフ注意の崩壊を抑制する。
さらに、エンコーダ予測を利用してエンコーダのセルフ注意にもフィードバックを行う拡張も提案している。
実験では、THUMOS14、ActivityNet-v1.3、HACS、FineActionなどの各ベンチマークで、Pred-DETRが従来のDETRベースモデルを大きく上回る性能を達成することを示している。注意の多様性が大幅に改善されたことが、この性能向上の主な要因である。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania