最近、MLP構造が再び人気を博しており、その中でもMLP-Mixerが際立っています。コンピュータビジョンの分野では、MLP-Mixerはチャネルとトークンの観点からデータ情報を抽出し、チャネルとトークン情報を融合する能力で注目されています。また、ASM-RHという新しいモデルが導入されました。この研究は、オーディオ認識領域に焦点を当てており、時間と周波数ドメインから洞察を取り入れたASM-RHモデルが音声データに特に適しており、複数の分類タスクで有望な結果をもたらすことを実証しています。
ASM-RHは3つのタスク(SpeechCommand、UrbanSound8K、CASIA Chinese Emotion Corpus)で卓越した結果を示し、「RAVDESS」オーディオ分類タスクでERANNsを上回る新たな最先端パフォーマンスを確立しました。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Qingfeng Ji,... om arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18007.pdfDiepere vragen