本研究は、ストッターを持つ人のための包括的な自動音声認識(ASR)システムの開発を目的としている。ストッターに関連する不流暢な発話は、従来のASRシステムの性能を大幅に低下させる課題がある。
本研究の主な貢献は以下の4点:
ストッターに焦点を当てたASRのファインチューニング: wav2vec 2.0モデルをストッター発話データでファインチューニングし、単語誤り率(WER)と意味的類似度(FBERT)の向上を示した。
不流暢な発話のデータ拡張: ストッターに特化したデータ拡張手法を提案した。これにより、発話中の不流暢性の種類、頻度、位置を精密に制御できるようになり、ロバストなASRの学習が可能になった。
精度バイアスの分析: 本手法がストッター発話とそうでない発話のASR精度の差を軽減できることを示した。
多様な評価設定: インタビューや朗読といった異なる文脈のストッター発話を用いて、幅広い評価を行った。
これらの取り組みにより、ストッターを持つ人のためのより公平で利用しやすいASRシステムの開発が期待できる。さらに、本手法は他の不流暢性を持つ発話にも応用可能である。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Dena Mujtaba... lúc arxiv.org 10-03-2024
https://arxiv.org/pdf/2406.10177.pdfYêu cầu sâu hơn