Centrala begrepp
本稿では、遠隔会議における音声認識の課題を解決するために、音声分離と音声認識の複数の手法を組み合わせたUSTC-NERCSLIPシステムについて解説する。
Sammanfattning
CHiME-8 NOTSOFAR-1チャレンジにおけるUSTC-NERCSLIPシステムの概要
本稿は、CHiME-8 NOTSOFAR-1チャレンジにおけるUSTC-NERCSLIPシステムについて記述した技術レポートである。このチャレンジは、高重複率、背景雑音、話者数の変動、自然な会話スタイルなど、現実世界における複雑さを捉えた、様々な会議室で録音されたデータセットが扱われる点が難しい。本システムでは、これらの課題に対処するため、フロントエンドの音声信号処理とバックエンドの音声認識の両面から最適化を行った。
フロントエンド音声信号処理
- 音声の分離とダイアライゼーションのためのデータ駆動型共同訓練手法(JDS)を導入し、音声品質を向上させた。
- さらに、従来のガイド付き音源分離(GSS)をマルチチャネルトラックに統合し、JDSを補完する情報を提供した。
ダイアライゼーション
- 多チャネルデータに対しては、重み付き予測誤差(WPE)アルゴリズムと重複区間検出を用いた。
- 重複区間に対しては、多チャネル3秒連続音声分離(CSS)を用いて、各話者の音声を効果的に分離した。
- 非重複区間に対しては、MVDRビームフォーマを用いて多チャネル音声を強調した。
- これらの前処理された音声に対して、クラスタリングベースの話者ダイアライゼーション(CSD)を行い、予備的な話者ダイアライゼーションの事前分布(Sys-2 RTTM)を得た。
- さらに、様々な処理技術を適用して、クラスタリングに用いる音声を加工し、異なるダイアライゼーションの事前分布を得た。
音声分離
- ダイアライゼーションシステムから得られたRTTMを用いて、話者の時間分布に関する情報を取得し、様々なバージョンの音声分離を行った。
- ニューラルネットワークベースの話者ダイアライゼーション(NSD)を用いて時間境界を最適化し、GSSアルゴリズムの初期化に用いた。
- NSDから推定された時間マスクをJDSシステムへの入力として用い、時間周波数(T-F)ソフトマスクの推定をガイドした。
- JDSシステムによって予測されたT-Fマスクを直接用いて、MVDRビームフォーミングをガイドした。
バックエンド音声認識
- 音声認識タスクには、高精度で知られる最先端のオープンソースモデルであるWhisperを活用した。
- Whisperをベースに、WavLM、ConvNeXt、Transformerの技術を取り入れ、マルチタスク学習とNoise KLD augmentationを適用したEnhanced Whisperを導入し、ASRのロバスト性と精度を大幅に向上させた。
Enhanced Whisper
- 入力特徴量表現の改善:自己教師あり学習済みモデル、特にWavLMから抽出された特徴量を活用した。
- ダウンサンプリング畳み込みの改善:NextFormerから着想を得て、ConvNeXt構造を導入した。
- 位置エンコーディングの改善:バイアス相対位置エンコーディングを採用した。
- Transformerブロックの改善:シグモイドゲーティング機構とdepthwise convolutionモジュールを統合した。
- エンコーダの最終層の改善:Mixture of Experts (MoE)コンポーネントを追加した。
結果
- 本システムは、CHiME-8 NOTSOFAR-1 Dev-set-2のマルチチャネルトラックとシングルチャネルトラックにおいて、それぞれ14.265%と22.989%の時間制約付き最小順列単語誤り率(tcpWER)を達成した。
結論
本稿では、現実世界の遠隔会議における音声認識の課題に対処するため、音声分離と音声認識の様々な手法を組み合わせたUSTC-NERCSLIPシステムについて解説した。
Statistik
CHiME-8 NOTSOFAR-1 Dev-set-2のマルチチャネルトラックにおけるtcpWERは14.265%。
CHiME-8 NOTSOFAR-1 Dev-set-2のシングルチャネルトラックにおけるtcpWERは22.989%。