本研究では、大規模言語モデル(LLM)と事前学習済み音声モデルを統合し、音声認識(ASR)タスクの性能を向上させる新しい手法を提案している。
まず、LLMにピンイン-文字変換のタスクでプリトレーニングを行う。これにより、LLMが発音特徴から対応する文字列を生成する能力を獲得する。次に、事前学習済み音声エンコーダから抽出した音声特徴をLLMに入力し、LoRAを用いてLLMのパラメータを微調整する。これにより、LLMが音声特徴を理解し、対応する文字列を出力できるようになる。
実験では、AISHELL-1データセットを用いて評価を行った。ピンイン-文字変換のプリトレーニングにより、ASRタスクの文字誤り率(CER)が9.5%相対的に改善された。さらに、大量の補助テキストデータを活用することで、CERがさらに19.0%相対的に改善された。
本手法は、発音特徴と文字列の関係を学習することで、LLMの音声理解能力を向上させている。特に、低リソース環境での音声認識タスクに有効であると考えられる。今後の課題としては、モデルのオーバーフィッティングの抑制や、より適切な音声-言語統合手法の検討などが挙げられる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문