本研究では、音声認識システムにおける名称エンティティの誤りを修正するための手法を提案している。
主な手順は以下の通り:
クエリ生成: 音声認識の仮説文から、名称エンティティに対応すると考えられる部分を抽出する。3つのアプローチ(全N-gram、テンプレートマッチング、名称エンティティタグ付け)を検討する。
エンティティ検索: 大規模な名称エンティティデータベースから、クエリに最も近いエンティティを検索する。検索手法として、Okapi BM25、T5セマンティック埋め込み、音響近傍埋め込みを評価する。
コンテキスト構築と言語モデル適用: 検索されたエンティティ情報を音声認識の仮説文と組み合わせ、言語モデルに入力する。言語モデルの適応手法として、LoRAアダプターと全体微調整を検討する。
実験の結果、音響近傍埋め込みを用いたエンティティ検索と、LoRAアダプターによる言語モデルの適応が最も効果的であり、合成データセットで最大39%の単語誤り率の相対的な改善を達成した。一方、一般的なボイスアシスタントタスクデータセットでは、音声認識の精度を大きく低下させることなく、7.7%の相対的な改善を示した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問