核心概念
音声名称エンティティ認識システムの性能向上には、多言語間の転移学習が有効である。特に、リソースの乏しい言語に対して、リソースの豊富な言語からの知識移転が有効である。
要約
本研究では、音声名称エンティティ認識システムにおける多言語間の転移学習を包括的に検討した。パイプラインアプローチとエンドツーエンドアプローチの両方を対象とし、英語、ドイツ語、オランダ語の3言語を対象とした。
主な結果は以下の通り:
- エンドツーエンドアプローチはパイプラインアプローチよりも優れた性能を示した。特に、アノテーションリソースが限られている場合に顕著であった。
- ドイツ語からオランダ語への転移学習により、単独のオランダ語エンドツーエンドシステムに比べて7%、オランダ語パイプラインモデルに比べて4%の性能向上が得られた。
- これらの結果は、音声名称エンティティ認識における多言語転移学習の有効性を示している。さらなるデータ収集が必要であるものの、これらの手法は音声ドキュメント検索などの実用的アプリケーションの発展に寄与する。
統計
音声認識の単語誤り率(WER)は、英語が16.7%、ドイツ語が9.4%、オランダ語が9.3%であった。
エンティティ誤り率(EER)は、英語が48.0%、ドイツ語が29.0%、オランダ語が49.0%であった。
F1スコアは、英語が40.7%、ドイツ語が61.1%、オランダ語が40.0%であった。
引用
"エンドツーエンドモデルはパイプラインモデルよりも優れた性能を示した。特に、アノテーションリソースが限られている場合に顕著であった。"
"ドイツ語からオランダ語への転移学習により、単独のオランダ語エンドツーエンドシステムに比べて7%、オランダ語パイプラインモデルに比べて4%の性能向上が得られた。"