エンドツーエンド音声認識モデルでは、明示的な時間アラインメント情報がないため、単語の開始時間と終了時間を正確に推定することが困難です。この問題は多言語モデルでさらに複雑になります。提案手法は単語埋め込みと事前学習済みの音声認識モデルを活用し、辞書に依存せずに単語境界を推定することができます。