Core Concepts
新しいアプローチを提案し、多言語音声データの公開と初期実験結果を示す。
Abstract
生成オーディオ機能の台頭に伴い、スピーチの可聴性への影響を迅速に評価する必要性が増しています。
ラボでの測定は高コストでスケーリングが難しく、クラウドソーシングによる評価は未だ十分に研究されていません。
スピーチ品質と可聴性の評価において、クラウドソーシング手法は成功を収めていますが、スピーチ可聴性の評価は不足しています。
新しいアルゴリズムが登場する中、その効果やリスクを適切に評価する必要があります。
INTRODUCTION
アルゴリズム開発や製品テスト時にスピーチ品質と可聴性の評価は不可欠です。
客観的な測定方法は初期段階で使用されますが、非侵襲的な方法も重要です。
CROWDSOURCING TEST DESIGN
クラウドソーシング環境でDRTを実施しました。事前選別と結果フィルタリングを行いました。
EXPERIMENTS AND RESULTS
クラウドソーシング結果は実験室テストと有意な相関がありました。
複数言語で行われたベースライン実験ではPCMUコーデックによる可聴性低下が確認されました。
Stats
音声処理技術 [3]
スピーチ品質評価 [8]
可聴性スコア計算式 [27]
Quotes
"Listening tests remain the gold standard for assessing quality and intelligibility of speech."
"Current speech algorithm research is moving towards not previously achievable benefit heights."