Core Concepts
音声時間関係を蒸留することで、パラメータ数の少ない軽量な音声自己教師学習モデルを構築できる。
Abstract
本研究では、Transformer ベースの音声自己教師学習(SSL)モデルを圧縮するために、音声時間関係(STaR)の蒸留を提案している。従来の手法は、教師モデルの複雑な出力表現を直接マッチングさせていたが、これは学生モデルの表現能力が限られている場合に過度な制約となる。そこで本研究では、教師モデルの時間関係を蒸留することで、パラメータ数の少ない軽量な学生モデルを構築する。
具体的には、以下の3つの STaR 蒸留目的関数を提案している:
平均注意マップ蒸留: 各Transformer層の注意マップの平均を蒸留する。
層ごとの時間Gramマトリクス(TGM)蒸留: 各Transformer層の出力の時間TGMを蒸留する。
層内TGM蒸留: 各Transformer層の入出力の時間TGMを蒸留する。
これらの蒸留目的関数は、追加のパラメータを必要とせず、より柔軟な蒸留が可能となる。
提案手法を HuBERT BASE モデルに適用した結果、パラメータ数が約27M の学生モデルで SUPERB ベンチマークの最高スコアを達成した。さらに、他の音声SSL モデルにも適用可能であり、パラメータ数の少ない軽量モデルでも高性能を維持することを示した。
Stats
HuBERT BASE モデルの前処理に約82 GPU-日を要する
HuBERT BASE モデルは32 GPUを使用して前処理を行う
Quotes
"Transformer ベースの音声自己教師学習(SSL)モデルは優れた性能を示しているが、大きなパラメータ数と計算コストが課題となっている。"
"本研究では、音声時間関係(STaR)の蒸留によって、パラメータ数の少ない軽量な音声SSL モデルを構築することを提案する。"