核心概念
本稿では、音声要約表現を用いることで、従来の多言語音声認識モデルよりも高い精度と設定可能性を実現する新しいモデル、csvMASRを提案する。
要約
設定可能な音声要約表現を用いた多言語音声認識
本稿は、Harrison Zhu氏らによる多言語音声認識(MASR)に関する研究論文を要約したものです。
世界人口の約半数がバイリンガルであることから、多言語音声認識(MASR)は必要不可欠です。しかし、事前に真の言語が不明な場合、複数の単一言語モデルを展開することは困難です。そこで本研究では、手動でプロンプトするか、特定の言語を認識するように自動的に適応させることができる、設定可能な多言語MASRモデルの研究に取り組みます。
本稿では、設定可能性を高めるために設計された新しいアーキテクチャである、要約ベクトルを用いた設定可能なMASRモデル(csvMASR)を提案します。このアプローチでは、アダプターを活用し、音声ダイアライゼーションにおける会話要約表現に着想を得た音声要約ベクトル表現を導入することで、発話レベルで言語固有のコンポーネントからの出力を組み合わせます。また、設定可能性を高めるために、補助的な言語分類損失も組み込んでいます。