toplogo
Sign In

DEFA: Efficient Deformable Attention Acceleration via Pruning-Assisted Grid-Sampling and Multi-Scale Parallel Processing


Core Concepts
MSDeformAttnの効率的なアクセラレーションに関するDEFAの提案とその成果
Abstract
MSDeformAttnは多くのビジョンタスクで重要なメカニズムとして浮上しており、DEFAはこの新しいオペレーターに対する初めてのアクセラレーション手法を提案している。 DEFAは、FWPとPAPを採用してメモリフットプリントを大幅に削減し、MSGSのスループットを向上させている。 DEFAはNvidia RTX 2080Tiおよび3090Ti GPUに比べて10.1〜31.9倍の高速化と20.3〜37.7倍のエネルギー効率向上を達成している。 ABSTRACT MSDeformAttnが重要性を増す中、DEFAはこの新しいオペレーターに対する初めてのアクセラレーション手法を提案している。 INTRODUCTION DETRやDN-DETRなどのベンチマークでDEFAが高速化とエネルギー効率向上を実現している。 Data Extraction: MSGSスループットがインターレベル並列処理で3.06倍向上したことが示されています。
Stats
MSGsスループットがインターレベル並列処理で3.06倍向上したことが示されています。
Quotes

Key Insights Distilled From

by Yansong Xu,D... at arxiv.org 03-19-2024

https://arxiv.org/pdf/2403.10913.pdf
DEFA

Deeper Inquiries

他のASICプラットフォームと比較した際、DEFAがどのような利点を持っているか?

DEFAは、MSDeformAttnに特化したアルゴリズムとアーキテクチャの共同設計により、効率的な加速を実現しています。まず、アルゴリズムレベルではFWP(Frequency-Weighted Pruning)およびPAP(Probability-Aware Pruning)を採用し、不要なfmapピクセルやサンプリングポイントの削減に成功しています。これによりメモリアクセスと演算量が大幅に削減されます。次に、アーキテクチャレベルではインターレベル並列処理を採用することでスループット向上を実現しています。さらに細かいオペレータフュージョンやfmap再利用も行うことでメモリフットプリントが軽減されています。 この結果、DEFAはNvidia RTX 2080Tiおよび3090Ti GPUよりも10.1〜31.9倍の高速化および20.3〜37.7倍のエネルギー効率改善を達成しています。また、ELSAやSpAttenなど他の注目されるASICプラットフォームと比較しても3.7倍から3.4倍以上のエネルギー効率向上が見られます。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star