本研究では、マスクされた入力信号の表現を予測することで入力信号をより効果的にモデル化できる自己教師あり学習手法「マスクモデリングデュオ(M2D)」を提案している。
M2Dは、マスクされた部分の表現と非マスクされた部分の表現を別々にエンコードし、マスクされた部分の表現を予測することで、入力信号全体をより良くモデル化することを目指す。
さらに、M2Dを拡張したM2D-Xでは、特定のアプリケーションに特化した表現学習を実現する。M2D-Xでは、M2Dに加えて、アプリケーションデータを用いた追加タスクと、ノイズ入力を用いた除雑音タスクを組み合わせることで、アプリケーションに特化した表現を学習する。
実験では、一般的なオーディオ、スピーチ、医療アプリケーションの3つの設定で評価を行い、M2DとM2D-Xが優れた性能を示すことを確認した。これにより、M2D-Xが様々なアプリケーションニーズに対応可能な汎用的なオーディオ表現学習フレームワークとなることが示された。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Daisuke Niiz... a las arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06095.pdfConsultas más profundas