核心概念
動的なネットワーク構造を学習することで、入力の複雑さに応じて適切な推論ルートを自動的に選択し、同じ計算コストで高い性能を達成する。
要約
本論文は、効率的なオブジェクト追跡のための動的トランスフォーマーフレームワーク「DyTrack」を提案している。
- 実世界のトラッキングシナリオには多様な複雑さのレベルが存在するため、簡単なフレームには単純なネットワークで十分であり、複雑なフレームにはより多くの計算を割り当てることができる。
- DyTrackは、入力の複雑さに応じて適切な推論ルートを自動的に学習し、選択することで、同じ計算コストで高い性能を達成する。
- 中間層に終了ブランチを設け、現在の特徴表現が十分に信頼できると判断された場合に、その時点で推論を終了する。
- 計算の無駄を削減するために、前の終了ノードの特徴を再利用する機構を導入した。
- 浅い層の予測精度を向上させるために、ディープモデルの表現パターンを模倣する自己蒸留戦略を提案した。
- 実験の結果、DyTrackは同等の速度で32.5%高い性能を達成したり、同等の性能で4.1倍高速であるなど、優れた速度-精度のトレードオフを示した。
統計
12層のモデルは105 FPS、9.4 GFLOPSで、AUCは68.4%
7層のモデルは165 FPS、16.3 GFLOPSで、AUCは64.7%
4層のモデルは265 FPS、27.6 GFLOPSで、AUCは61.1%
引用
"動的なネットワーク構造を学習することで、入力の複雑さに応じて適切な推論ルートを自動的に選択し、同じ計算コストで高い性能を達成する。"
"中間層に終了ブランチを設け、現在の特徴表現が十分に信頼できると判断された場合に、その時点で推論を終了する。"
"計算の無駄を削減するために、前の終了ノードの特徴を再利用する機構を導入した。"