Core Concepts
Whisperの音声特徴を活用することで、音声品質と知的性の予測精度を向上させることができる。
Abstract
本研究では、大規模な弱教師付きモデルであるWhisperの音声特徴を活用することで、音声品質と知的性の予測精度を向上させる手法MOSA-Net+を提案している。
まず、Whisperの音声特徴がMOSA-Net+モデルの性能向上に効果的であることを確認した。次に、Whisperの特徴とSSLモデルの特徴を組み合わせても、わずかな性能向上にとどまることを示した。
MOSA-Net+は、既存の音声品質・知的性予測手法と比較して、TMHINT-QIデータセットにおいて全ての評価指標で優れた性能を示した。さらに、VoiceMOS Challenge 2023の評価でも最高の性能を発揮した。
これらの結果から、Whisperは音声特徴抽出に有効であり、MOSA-Net+のような音声評価モデルの性能向上に貢献できることが示された。今後は、Whisperを活用した音声評価モデルの他のタスクへの適用可能性を検討していく。
Stats
音声品質予測のMSEは0.344、LCCは0.815、SRCCは0.776
音声知的性予測のMSEは0.017、LCCは0.807、SRCCは0.738
Quotes
"Whisperの音声特徴を活用することで、音声品質と知的性の予測精度を向上させることができる。"
"MOSA-Net+は、既存の音声品質・知的性予測手法と比較して、TMHINT-QIデータセットにおいて全ての評価指標で優れた性能を示した。"