Kernekoncepter
本稿では、マンダリン吃音イベント検出において、音声の細かなニュアンスを捉えることで検出精度を向上させる、きめ細かい対照学習(FGCL)フレームワークを提案しています。
Resumé
研究の概要
本稿は、SLT2024の吃音音声チャレンジにおける、チームT031によるマンダリン吃音イベント検出システムについて述べています。
問題提起
吃音イベント検出において、従来の手法は音声の細かなニュアンスの捕捉が不十分であり、特に境界付近のフレームの曖昧さが課題となっていました。
提案手法
本稿では、きめ細かい対照学習(FGCL)フレームワークを提案しています。
- フレームレベルで吃音イベントの確率をモデル化し、簡単なフレームと紛らわしいフレームを識別するマイニングアルゴリズムを導入。
- 吃音対照損失を提案し、吃音のある音声フレームと流暢な音声フレームの区別を強化することで、吃音特徴埋め込みの識別能力を向上。
実験結果
- 英語とマンダリンのデータセットを用いた評価でFGCLの有効性を示し、マンダリンデータではF1スコアが5.0%以上向上。
- 特に、吃音イベントの開始と終了付近の曖昧なフレームの検出精度が向上。
- 英語データセットと自己教師あり学習特徴を用いた実験でも、FGCLの一貫した性能向上が確認された。
結論
FGCLは、フレームレベルのきめ細かい対照学習を用いることで、吃音イベント検出の精度を向上させる効果的な手法であることが示されました。
Statistik
マンダリンデータにおけるF1スコアは、ベースラインと比較してFGCLで5.1%以上向上した。
パラメータ調整後、FGCLはベースラインと比較してF1スコアを5.1%以上向上させた。
吃音対照損失の各構成要素(LstとLfl)を個別に削除したアブレーション研究では、いずれも単独で有意な性能向上を示した。
2つの英語データセット(SEP-28kとFluencyBank)を用いた評価でも、FGCLはベースラインと比較して一貫して優れた性能を示した。
Citater
"This paper presents the T031 team’s approach to the StutteringSpeech Challenge in SLT2024."
"We propose a detailed acoustic analysis method to improve the accuracy of stutter detection by capturing subtle nuances that previous Stuttering Event Detection (SED) techniques have overlooked."
"Extensive evaluations on English and Mandarin datasets demonstrate the effectiveness of FGCL, achieving a significant increase of over 5.0% in F1 score on Mandarin data."