Core Concepts
本研究は、自己教師学習モデルであるWav2Vec2を活用し、音素認識、表現学習、知識移転を組み合わせた新しいアプローチを提案する。これにより、最小限の追加トレーニングで多言語の音声表現を生成し、テキスト独立の音声-音素アラインメントを実現する。
Abstract
本論文では、テキスト独立の音声-音素アラインメントのための新しいアプローチを提案している。主な特徴は以下の通りである:
自己教師学習モデルのWav2Vec2を活用し、CTC損失を用いて音素認識のためにファインチューニングを行う。
主成分分析(PCA)によるディメンション削減モデルと、フレームレベルの音素分類器を統合する。
この統合モデルにより、各オーディオフレームの確率ベクトルを生成する。
同一音素の連続フレームをグループ化し、開始時間と終了時間を算出することで、テキスト独立の音声-音素アラインメントを実現する。
実験では、合成ネイティブデータを使用してTIMITデータセットとSCRIBEデータセットでモデルを評価した。提案モデルは、統計的指標においてstate-of-the-artモデルであるcharsiumを上回る性能を示した。また、英語の多様なバリエーション(アメリカ英語、英国英語)に対応できる柔軟性も備えている。
Stats
音素の出現頻度は自然言語では均一ではない。
MAILABS データセットの英語データを使用して、フレームレベルの音素分類器をトレーニングした。
各フレームの予測確率が0.5未満の音素は除去した。