Centrala begrepp
Mixerは、異なる視点から情報を抽出し、音声認識において優れた成果を上げる。
Sammanfattning
最近、MLP構造が再び人気を博しており、その中でもMLP-Mixerが際立っています。コンピュータビジョンの分野では、MLP-Mixerはチャネルとトークンの観点からデータ情報を抽出し、チャネルとトークン情報を融合する能力で注目されています。また、ASM-RHという新しいモデルが導入されました。この研究は、オーディオ認識領域に焦点を当てており、時間と周波数ドメインから洞察を取り入れたASM-RHモデルが音声データに特に適しており、複数の分類タスクで有望な結果をもたらすことを実証しています。
ASM-RHは3つのタスク(SpeechCommand、UrbanSound8K、CASIA Chinese Emotion Corpus)で卓越した結果を示し、「RAVDESS」オーディオ分類タスクでERANNsを上回る新たな最先端パフォーマンスを確立しました。
Statistik
ASM-RHはSpeechCommandタスクでv-acc 96.62% を達成。
UrbanSound8KではASM-RHがv-auc 99.80% を記録。
CASIA Chinese Sentiment CorpusではASM-RHがt-auc 99.45% を達成。
Citat
"ASM-RH embodies the essence of the Mixer concept by shifting away from the conventional computer vision approach."
"ASM-RH delivers impressive outcomes across three tasks, surpassing ERANNs to establish a new state-of-the-art performance."
"The results demonstrate that the performance of ASM-RH model surpasses that of the Audio Spectrogram Mixer significantly."