本研究では、単語境界情報を得るための新しいアプローチを提案しています。従来の手法は辞書や追加トークンに依存していたため、スケーラビリティの問題や計算コストの増加が課題でした。
提案手法では、サブワードトークンの単語埋め込みと事前学習済みの音声認識モデルを活用し、単語アラインメント情報のみを使って単語境界を推定します。この手法は言語数に依存せずにスケールアップできるという利点があります。
5つの言語(英語、フランス語、スペイン語、イタリア語、ドイツ語)で構築した多言語音声認識モデルを用いて提案手法の有効性を検証し、強力なベースラインと比較しました。提案手法は辞書に依存せずに、ベースラインと同等の単語境界推定精度を達成できることを示しました。
To Another Language
from source content
arxiv.org
Głębsze pytania