Core Concepts
大規模SSLモデルから知識を抽出し、DSU事前学習を介してSTモデルをよりコンパクトにする方法。
Abstract
この論文では、Self-Supervised Learning(SSL)を使用したモデルの初期化が一般的であり、強力な結果を得ることができることが述べられています。しかし、これらの大規模なモデルはメモリフットプリントが大きく、オンデバイス展開を妨げています。そこで、著者らはSSLモデルからDSU(Discrete Speech Units)に対して小さなモデルの事前学習を行い、新しいモデルを初期化する方法を提案しています。この手法は、DSUの事前学習を使用してSSLモデルの知識を蒸留し、コンパクトな最終モデルを作成します。また、この手法はASR事前学習と比較してトランスクリプトが不要であり、低リソースの設定にも適用可能です。
Stats
DSU-AdapterはHu-Transformerよりも0.5 BLEU高い結果を示す。
DSU-Adapterは半分のサイズであるにもかかわらず直接HuBERTから微調整したSTモデルよりも0.5 BLEU高い。
DSU-AdapterはASR事前学習と同等の結果を示す。
Quotes
"我々の手法は大規模SSLモデルから知識を抽出し、STモデルをオンデバイス展開可能にするためにDSU事前学習を利用します。"
"DSU-AdapterはHu-Transformerよりも優れた結果を示しました。"
"我々の手法は低リソース設定向けであり、トランスクリプトが不要です。"