オーディオ表現学習手法の体系的な比較を可能にする包括的なベンチマークを提案し、音響イベント、音楽、音声の多様なドメインにわたる評価を行う。また、非音声オーディオ用の事前学習済みモデルを公開し、オーディオ表現学習の発展に貢献する。
マスクされた入力信号の表現を予測することで、入力信号をより効果的にモデル化できる自己教師あり学習手法を提案する。さらに、M2Dを拡張したM2D-Xにより、特定のアプリケーションに特化した表現学習を実現する。