コンフォーマーエンコーダーは時間次元を反転させる可能性がある。この現象の原因と回避方法を分析した。
本研究では、Mambaエンコーダを活用したストリーミング音声認識モデルを提案する。また、単一モーダル集約(UMA)フレームワークを導入し、トークン境界の明示的な検出と特徴フレームの統合を行うことで、高精度かつ低遅延のストリーミング音声認識を実現する。
EPIC-SOUNDS は、家庭の台所で録音された100時間の音声データを収集し、78,366の分類された音声イベントと39,187の非分類の音声イベントを含む大規模なデータセットである。音声イベントは人手で聞いて分類されており、音声のみで判別可能な行動を特定することができる。
内部音響モデルを用いたハイブリッド自己回帰トランスデューサの訓練と、ハイブリッド自己回帰トランスデューサと内部音響モデルを組み合わせた二重ブランクしきい値処理により、ASR性能と効率性を向上させる。
大規模言語モデルを用いた音声認識システムにおいて、音声入力から検出された固有名詞を元に、発音的に類似した固有名詞を検索し、その情報を言語モデルに提供することで、文脈を考慮した高精度な音声認識を実現する。
専門家混合型アーキテクチャと挿入・削除トークン機構を用いることで、コードスイッチングシナリオにおける音声認識精度を大幅に向上させることができる。
エンドツーエンド音声認識モデルでは、明示的な時間アラインメント情報がないため、単語の開始時間と終了時間を正確に推定することが困難です。この問題は多言語モデルでさらに複雑になります。提案手法は単語埋め込みと事前学習済みの音声認識モデルを活用し、辞書に依存せずに単語境界を推定することができます。
CTC強制アラインメントアルゴリズムの結果を使用して各フレームのラベルを決定し、エンコーダ出力とデコーダ出力を対応するタイミングで組み合わせることで、メモリ使用量を大幅に削減したトランスデューサモデル。
CTCを活用することで、音響エンコーダがスピーカーごとに異なる時間領域に音声を表現することを発見した。この洞察に基づき、スピーカー分離を明示的にモデル化したSpeaker-Aware CTCを提案し、SOTベースのマルチスピーカー音声認識モデルに統合することで、従来のSOT-CTCモデルを大幅に改善できることを示した。
トランスフォーマーベースの音声認識モデルは、環境音を利用したバックドアポイズニング攻撃に対して脆弱であり、音声活動検出(VAD)モデルを使用することで、このような攻撃を軽減できる。