核心概念
音声認識モデルの生涯学習を実現するための新しい順次モデル編集手法を提案する。従来手法とは異なり、過去のデータセットへのアクセスや追加パラメータを必要としない。
要約
本研究では、音声認識モデルの生涯学習を実現するための新しい手法として、順次モデル編集を提案している。従来の手法では、過去のデータセットへのアクセスや追加パラメータが必要だったが、本手法ではそれらを必要としない。
具体的には以下の手順で行う:
- 現在のモデルパラメータθt-1を新しいデータDtでファインチューニングし、中間モデルˆθtを得る。
- タスクベクトルτtを計算する。Task Arithmeticではˆθt-θt-1、TIES-Mergingではτtの次元削減を行う。
- 最終的なモデルパラメータθtはθt-1にタスクベクトルτtを加えることで得る。
実験では、CommonVoice English multi-accent データセットを用いて評価を行った。提案手法は、ファインチューニングベースラインに比べて最大15%のWER削減を達成し、他の生涯学習手法よりも優れた性能を示した。また、段階的な分析からも、提案手法が生涯学習に適していることが確認された。
統計
従来のファインチューニングでは、新しいアクセントの追加により過去のアクセントのパフォーマンスが大幅に低下する(WER 11.2)
提案手法のTask Arithmeticは9.1%、TIES-Mergingは15.0%のWER削減を達成し、オラクル手法に迫る性能を示した
引用
"従来の生涯学習手法では、過去のデータセットへのアクセスや追加パラメータが必要だったが、本手法ではそれらを必要としない"
"提案手法は、段階的な分析からも生涯学習に適していることが確認された"