本論文では、PIVOTと呼ばれる新しい手法を提案している。PIVOTは、入力の難易度に応じて、ビジョントランスフォーマー(ViT)の注意機構の数を最適化することで、高精度かつ低遅延の推論を実現する。
具体的には、PIVOTは2つのViTを使い分ける。1つは「低努力」ViTで、簡単な入力に対して注意機構を多く省略する。もう1つは「高努力」ViTで、複雑な入力に対して注意機構を多く使う。PIVOTは、ハードウェアとアルゴリズムの共同最適化を行い、これらの2つのViTの最適な構成を見つける。
評価の結果、PIVOTは、DeiT-SやLVViT-Sベースラインと比べて、エネルギー消費遅延積(EDP)を2.7倍、2.6倍低減できることが示された。一方で、精度は0.2%、1.6%低下するにとどまる。また、従来手法と比べて、CPUやGPUでの実装でも1.3倍から1.8倍の高スループットを達成できることが確認された。
PIVOTは、入力の難易度に応じてViTの注意機構を最適化することで、高精度かつ低遅延の推論を実現する新しい手法である。ハードウェアとアルゴリズムの共同最適化により、優れた性能を発揮することが示された。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询