大規模な半教師あり学習を活用することで、自動音声認識モデル「Conformer-1」の精度と雑音耐性が大幅に向上した。
可変長スピーチ信号の特性を捉えるためのEcho Multi-Scale Attention (Echo-MSA)モジュールを提案し、従来のTransformerベースの自動音声認識モデルの性能を向上させる。
ASRシステム内での文脈認識を強化するための新しいアプローチを提案し、Transformerモデルを活用して卓越した能力を実現。