核心概念
発音情報を活用することで、Transducerモデルの自動音声認識精度を向上させることができる。また、発音情報を活用することで、認識エラーの連鎖反応を抑制することができる。
要約
本論文では、発音に注目したエンコーディングを用いたTransducerモデル(PET)を提案している。従来のTransducerモデルでは、単語トークンの埋め込みが独立して学習されていたが、PETモデルでは、同じ発音または類似した発音を持つトークンの埋め込みに共通成分を持たせることで、パラメータ共有を促進している。
中国語と韓国語のデータセットを用いた実験の結果、PETモデルは従来のTransducerモデルと比べて、一貫して音声認識精度を向上させることができた。さらに、分析の結果、Transducerモデルでは認識エラーが連鎖する傾向があることが明らかになった。一方、PETモデルはこの問題を効果的に緩和することができ、先行する認識エラーが後続のエラーを引き起こす可能性を大幅に減らすことができた。
本研究の主な貢献は以下の3点である:
- Transducerデコーダーの埋め込み生成方式の提案: 発音の類似性に基づいて、テキストトークンの埋め込みに共有成分を持たせる
- Transducerにおける認識エラーの連鎖反応の発見: 認識エラーが均等に分布するのではなく、むしろ集中して発生する傾向があり、1つのエラーが後続のエラーを引き起こしやすい
- PETモデルが認識エラーの連鎖反応を抑制することの発見: PETモデルは発音情報を活用することで、先行する認識エラーが後続のエラーを引き起こす可能性を大幅に減らすことができる
統計
中国語AISHELL-2データセットの5000文字には合計1149種類の発音がある
中国語AISHELL-2データセットのiOS-testセットにおいて、PETモデルはベースラインと比べて2.7%の相対的な文字誤り率の改善を達成した
中国語THCHS-testセットにおいて、PETモデルはベースラインと比べて1.01%の絶対的な文字誤り率の改善を達成した(7.1%の相対的な改善)
韓国語Zeroth-Koreanデータセットにおいて、PETモデルはベースラインと比べて最大0.15%の絶対的な文字誤り率の改善を達成した
引用
"Transducerモデルでは、認識エラーが均等に分布するのではなく、むしろ集中して発生する傾向があり、1つのエラーが後続のエラーを引き起こしやすい"
"PETモデルは発音情報を活用することで、先行する認識エラーが後続のエラーを引き起こす可能性を大幅に減らすことができる"