Centrala begrepp
スピーカー認証のためには、時間解像度を周波数解像度よりも優先的に保持することが重要である。
Sammanfattning
本研究では、ResNetベースのスピーカー認証モデルにおける時間解像度と周波数解像度の影響を系統的に分析しました。
- ResNetの5つのステージにおける畳み込み演算のストライド設定を調査し、時間解像度を優先的に保持する「Golden Gemini」と呼ばれる最適な設定を特定しました。
- Golden Geminiの設定は、既存のResNetベースラインモデルに比べて、平均7.70%のEER減少と11.76%のminDCF減少を達成しつつ、パラメータ数を16.5%、FLOPsを4.1%削減することができました。
- 様々な訓練条件やアーキテクチャに対してGolden Geminiの有効性を検証し、新しいベンチマークモデルであるGemini DF-ResNetを提案しました。
Statistik
時間解像度を優先的に保持するストライド設定は、周波数解像度を優先するものに比べて、VoxCeleb-EテストセットでEERが5.78%、minDCFが14.37%改善された。
Golden Gemini T14cの設定は、ベースラインモデルに比べて、パラメータ数を9.8%、FLOPsを4.2%削減できた。