Conceptos Básicos
RNNベースのオーディオ効果処理では、学習時のサンプルレートが推論時に変更できないという課題がある。本研究では、RNNの状態フィードバックループに補間フィルタを導入することで、サンプルレート変換を実現する手法を提案する。
Resumen
本研究では、RNNベースのオーディオ効果処理において、学習時のサンプルレートと推論時のサンプルレートが異なる場合の問題に取り組んでいる。
具体的には以下の点について検討している:
- 学習時のサンプルレートを44.1kHzとし、推論時のサンプルレートを48kHz(オーバーサンプリング)および40.5kHz(アンダーサンプリング)に変更する手法を提案する。
- 状態フィードバックループに補間フィルタを導入することで、非整数のサンプルレート変換を実現する。Lagrange補間とミニマックス設計の2種類のフィルタ設計手法を検討する。
- 160種類のLSTMモデルを用いて実験を行い、提案手法の性能を評価する。オーバーサンプリングの場合、適切なフィルタ設計により80dBのSNRが得られることを示す。一方、アンダーサンプリングの場合、モデルによっては提案手法が劣化を引き起こすことも明らかにする。
- 線形化分析を用いて、提案手法が失敗する原因を分析する。これにより、事前にモデルに適したフィルタを選択できることを示す。
Estadísticas
オーバーサンプリング(44.1kHz→48kHz)の場合、Lagrange-5フィルタは58.1%のモデルで最高80dBのSNRを達成したが、8.1%のモデルでは-5dB以下の劣化を引き起こした。
アンダーサンプリング(44.1kHz→40.5kHz)の場合、全ての手法で最低0dB以下のSNRとなり、3.1%のモデルではナイーブ法(補間なし)が最良の結果となった。