本稿では、遠隔会議における音声認識の課題を解決するために、音声分離と音声認識の複数の手法を組み合わせたUSTC-NERCSLIPシステムについて解説する。
ストッターを持つ人のための自動音声認識の精度を向上させるため、大規模な自己教師あり学習に基づくモデルのファインチューニングと、ストッターに特化したデータ拡張手法を組み合わせた手法を提案する。
SonicSimは、移動音源シナリオにおける音声分離と音声強調のための高度にカスタマイズ可能な合成データ生成ツールである。
時間周波数領域の相互結合型ゲイン抽出と再構築を用いた効率的な音声分離モデルTIGERを提案する。
Takin-VCは、言語コンテンツと音色の高度なモデリングを統合することで、従来のゼロショットボイスコンバージョンシステムを大幅に改善し、話者類似度と自然性を向上させる。
本研究では、EU 24か国の公用語に対応したオープンソース音声基盤モデル(EU-OSSFM)の開発に向けて、950,000時間の音声データを収集した。さらに、441,000時間の無ラベル音声データに対して自動トランスクリプションを生成し、オープンソースライセンスで公開した。
WHYVは、話者情報を活用して、言語に依存せずに効果的に目標話者の音声を抽出することができる。
FeruzaSpeechは、ウズベク語の音声認識とテキスト読み上げの技術開発を促進するための、高品質な単一話者の朗読音声コーパスである。
合成スピーカーを用いたカリキュラム学習によって、ターゲットスピーカー抽出の性能を大幅に向上させることができる。
音声表現モデルのフォノーム分類タスクへのファインチューニングは、文脈非依存の表現を学習させ、下流の言語モデリングパフォーマンスを向上させる。