핵심 개념
音声合成モデルから得られる中間表現を活用することで、音声と文字の表現を共通の潜在空間に射影することができ、開放語彙キーワード検出の精度を向上させることができる。
초록
本研究では、開放語彙キーワード検出のための新しい手法を提案している。従来の手法では、音声と文字の表現を共通の潜在空間に射影することが課題となっていたが、本手法では、あらかじめ学習済みの音声合成モデルから得られる中間表現を活用することで、この課題を解決している。
具体的には、以下のような構成となっている。
- 文字エンコーダ: あらかじめ学習済みの音声合成モデル(Tacotron 2)の中間表現を利用して文字の表現を生成する。これにより、文字表現に音声的な情報が含まれるようになる。
- 音声エンコーダ: 音声特徴量(メルフィルターバンク係数)を入力とし、畳み込みニューラルネットワークとバイリニアリカレントニューラルネットワークを用いて音声の表現を生成する。
- パターン抽出器: 文字表現と音声表現の時間的な対応関係を捉えるために、クロスアテンションメカニズムを用いる。
- パターン判別器: 文字表現と音声表現の一致度を判別する。
提案手法は、既存手法と比較して、特に発音が類似した単語の検出精度が高いことが示されている。また、単語長の異なる単語に対しても安定した性能を示している。さらに、未知の単語に対しても頑健な性能を発揮することが確認されている。
통계
キーワード長が1の場合のEER: 5.41%
キーワード長が2の場合のEER: 5.9%
キーワード長が3の場合のEER: 7.59%
キーワード長が4の場合のEER: 8.5%
인용구
"音声合成モデルから得られる中間表現を活用することで、音声と文字の表現を共通の潜在空間に射影することができ、開放語彙キーワード検出の精度を向上させることができる。"
"提案手法は、特に発音が類似した単語の検出精度が高いことが示されている。"
"提案手法は、単語長の異なる単語に対しても安定した性能を示している。"
"提案手法は、未知の単語に対しても頑健な性能を発揮することが確認されている。"