大規模な半教師あり学習を活用することで、自動音声認識モデル「Conformer-1」の精度と雑音耐性が大幅に向上した。


coremsg

大規模な半教師あり学習によるロバストな自動音声認識モデル-conformer-1-


大規模な半教師あり学習によるロバストな自動音声認識モデル「Conformer-1」



可変長スピーチ信号の特性を捉えるためのEcho Multi-Scale Attention (Echo-MSA)モジュールを提案し、従来のTransformerベースの自動音声認識モデルの性能を向上させる。



可変長スピーチの特性を活用した自動音声認識のための Echo Tuneモジュール



ASRシステム内での文脈認識を強化するための新しいアプローチを提案し、Transformerモデルを活用して卓越した能力を実現。