Kernekoncepter
スピーチ認識モデルの性能を、ノイズ環境下での精度、消費電力、推論速度の観点から評価し、エッジデバイスへの最適な展開方法を明らかにする。
Resumé
本研究では、スピーチ認識モデルの性能を包括的に評価しています。
- 主要なスピーチ認識モデルをNVIDIA Jetson Orin Nanoデバイス上で実行し、単語誤り率(WER)、消費電力、推論速度を測定しました。
- クリーンな音声データとノイズ付加音声データを用いて、モデルの精度とノイズ耐性を分析しました。
- モデルの量子化(FP32 -> FP16 -> INT8)が消費電力に与える影響を評価しました。
- モデルサイズ、パラメータ数、量子化レベルと、WER、消費電力、推論速度の関係を明らかにしました。
- HuBERT-largeモデルのように、パラメータ数が多くても消費電力が低く、ノイズ耐性が高いモデルが存在することを示しました。
- 量子化によって消費電力を大幅に削減できることを確認しました。
- これらの知見は、エッジデバイスでの効率的なスピーチ認識システムの実現に役立つと考えられます。
Statistik
消費電力が最も低いのはHuBERT-largeモデルの47Jです。
最も高速な推論速度はwavLM-baseの21.9秒です。
最も低いWERはHuBERT-largeの2.39です。
ノイズ付加時のWERが最も低いのはHuBERT-largeの10.66です。
Citater
"より高い精度を得るためには、消費電力が著しく増加する可能性がある。"
"エッジデバイスでのスピーチ認識では、プライバシーの向上、信頼性の向上、エネルギー効率の向上が重要である。"
"パラメータ数だけでは、ノイズ耐性を予測できない。モデルアーキテクチャも重要な役割を果たす。"