本研究では、大規模言語モデル(LLM)を用いた音声認識システムの文脈化手法を提案している。
まず、LLMを用いて音声入力から固有名詞を検出する。次に、検出された固有名詞と発音的に類似した固有名詞をデータベースから検索し、それらの情報をLLMに提供する。最後に、文脈を考慮した音声認識を行う。
この手法により、ベースラインと比較して、単語誤り率を最大30.2%、固有名詞誤り率を最大73.6%改善できることを示している。
提案手法は、固有名詞データベース全体をLLMに提示する必要がないため、効率的で大規模なデータベースにも適用可能である。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Zhihong Lei,... klokken arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15353.pdfDypere Spørsmål