Arenaは、エッジコンピューティングの登場により実現可能になったリアルタイムの知的ビデオ分析のための、エッジ支援のViT推論高速化システムである。従来のCNNベースのモデルは悪環境下での性能が劣るが、ViTは優れた一般化能力を持つ。しかし、ViTは大量の計算リソースを必要とするため、リアルタイムのビデオ分析への適用が困難であった。
Arenaは、ViTの特性を活用し、以下の2つの機能を提供する:
Arenaは、2つのフェーズ(キーフレーム推論とノンキーフレーム推論)を交互に実行する。キーフレーム推論では、フル解像度のフレームを送信し、メモリトークンプールを構築する。ノンキーフレーム推論では、PoIのみを送信し、メモリトークンプールを活用して特徴を再構築する。
Arenaは、公開データセットMOT17DetとAIC22で評価され、従来手法と比較して最大1.58倍と1.82倍の推論高速化を達成しつつ、精度低下を1%未満に抑えられることが示された。また、通信量も54%と34%に削減できることが確認された。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Haosong Peng... às arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09245.pdfPerguntas Mais Profundas