Core Concepts
TRAMBA は、モバイルおよびウェアラブルプラットフォーム向けの骨伝導音声強化に適した、トランスフォーマーとマンバのハイブリッドアーキテクチャである。TRAMBAは、状態の良いGANモデルと比較して、最大7.3%のPESQと1.8%のSTOIの改善を示し、メモリフットプリントが1桁小さく、最大465倍の高速推論を実現する。
Abstract
本研究では、TRAMBA (Transformer and Mamba)と呼ばれる新しいハイブリッドアーキテクチャを提案している。TRAMBAは、音響および骨伝導音声の強化に適しており、モバイルおよびウェアラブルプラットフォームに適している。
骨伝導音声強化は、以下の理由から実用的に採用されてこなかった:
データ収集が労力集約的で、データが不足している
数百MBのメモリフットプリントを持つ最先端モデルと、リソース制限システムに適したメソッドの間にパフォーマンスギャップが存在する
TRAMBAは、広く利用可能な音声データセットを使用してあらかじめ学習し、その後少量の骨伝導データでファインチューニングすることで、振動ベースのセンシングモダリティに適応できる。TRAMBAは、最先端のGANモデルを最大7.3%のPESQと1.8%のSTOIで上回り、メモリフットプリントが1桁小さく、最大465倍の高速推論を実現する。
TRAMBAは、ウェアラブルデバイスのバッテリー寿命を最大160%改善し、ノイズの多い環境でOTA音声よりも高品質の音声を生成し、20.0MB未満のメモリフットプリントを必要とする。
Stats
骨伝導マイクロフォンを使用すると、環境ノイズの影響を受けにくい。
振動ベースのセンシングモダリティでは、高周波成分が大幅に減衰する。
TRAMBAは、GANモデルと比較して、最大7.3%のPESQと1.8%のSTOIの改善を示す。
TRAMBAは、最大465倍の高速推論を実現し、メモリフットプリントが1桁小さい。
TRAMBAを使用すると、ウェアラブルデバイスのバッテリー寿命を最大160%改善できる。
Quotes
"骨伝導音声強化は、モバイルおよびウェアラブルプラットフォームでは実用的に採用されてこなかった。"
"TRAMBAは、最先端のGANモデルを最大7.3%のPESQと1.8%のSTOIで上回り、メモリフットプリントが1桁小さく、最大465倍の高速推論を実現する。"
"TRAMBAを使用すると、ウェアラブルデバイスのバッテリー寿命を最大160%改善できる。"