Core Concepts
本論文は、アイルランド語の低リソース音声認識(ASR)とダイアレクト識別(DID)のためのハイブリッドCTC/Attention エンコーダ-デコーダモデルの使用を探索している。中間CTC(InterCTC)を用いたマルチタスク学習アプローチが、DID精度の10.8%の相対的な改善と、TDNN-HMMモデルに迫るWER性能をもたらすことが示された。
Abstract
本論文は、アイルランド語の低リソース音声認識(ASR)とダイアレクト識別(DID)のための革新的なアプローチを探索している。
まず、アイルランド語の音声データセットについて説明している。アイルランド語には3つの主要な方言(Ulster、Connaught、Munster)があり、L1話者はGaeltachtaíと呼ばれる限られた地域に存在する一方で、L2話者も多数いる。このような方言の多様性と低リソース性が、アイルランド語のASRに大きな課題をもたらしている。
次に、ハイブリッドCTC/Attention エンコーダ-デコーダモデルを用いた手法について説明している。マルチタスク学習の一環として、ダイアレクト情報をテキスト出力系列に明示的に組み込むとともに、InterCTCを用いてDIDの補助タスクを導入している。
実験の結果、この手法が以下のような成果を上げていることが示された:
DID精度がECAPA-TDNNモデルを10.8%相対的に上回った
WER性能がTDNN-HMMモデルに迫る水準まで改善された
最適なInterCTCの設定と、マルチタスクのLM shallow fusionを組み合わせることで、さらなる性能向上が得られた
このマルチタスクアプローチは、アイルランド語の低リソースASRとDIDに有望な戦略であることが示された。
Stats
音声データの総時間は290時間
検証セットは1.7時間、テストセットは3.5時間
テストセットの内訳は、Ulster 1.03時間、Connaught 1.29時間、Munster 1.15時間