Core Concepts
リソース制限の厳しいデバイス上でも、精度を落とすことなく高速な音声認識を実現する。
Abstract
本論文では、リソース制限の厳しいスマートフォンやウェアラブルデバイスなどのエッジデバイス上で高精度な音声認識を実現するための最適化手法を提案する。
まず、従来の2D畳み込み層をDepthwise Separable Convolutionに置き換えることで、計算量を大幅に削減しつつ精度を維持する。次に、ハードウェアアクセラレータの特性に合わせたメモリ管理とグラフ最適化を行い、高速な推論を実現する。さらに、Layerノーマライゼーションの数値的安定化のための理論的な手法を提案し、低精度演算環境でも安定した動作を実現する。
これらの最適化により、スマートウォッチ上で5.26倍の高速化と大幅な消費電力削減を達成しつつ、最先端の音声認識精度を維持することができた。提案手法は、他のTransformerベースのAIアプリケーションにも広く適用可能である。
Stats
従来の2D畳み込み層に比べ、Depthwise Separable Convolutionは計算量を90%削減できる。
スマートウォッチ上で、提案手法は従来手法に比べ5.26倍高速化できる。
スマートウォッチ上で、提案手法は従来手法に比べ消費電力を大幅に削減できる。
Quotes
"リソース制限の厳しいデバイス上でも、精度を落とすことなく高速な音声認識を実現する。"
"提案手法は、他のTransformerベースのAIアプリケーションにも広く適用可能である。"