核心概念
ノイズ環境下における音声感情認識の精度向上のため、自己教師あり学習(SSL)特徴量を用いて音声区間検出(VAD)と音声感情認識(SER)をEnd-to-Endで統合する手法を提案する。
摘要
音声感情認識における新たなアプローチ:自己教師あり学習を用いたEnd-to-End統合
本論文は、ノイズ環境下における音声感情認識(SER)の精度向上を目的とし、自己教師あり学習(SSL)特徴量を用いて音声区間検出(VAD)とSERをEnd-to-Endで統合する手法を提案している。
音声感情認識(SER)は、音声から感情状態を識別・分類するタスクであり、医療、顧客サービス、マーケティングなど、幅広い分野への応用が期待されている。
従来のSER手法では、音声信号から韻律やスペクトルなどの特徴量を抽出し、機械学習モデルに入力することで感情認識を行ってきた。
近年、深層学習、特にTransformerの登場により、wav2vec 2.0、HuBERT、WavLMなどの事前学習済みSSLモデルが注目されている。
SSL特徴量を用いたSERモデルは、従来手法を上回る性能を示している。
実際のSERアプリケーションでは、音声区間検出(VAD)モデルを用いて音声区間を検出し、SERモデルに入力するのが一般的である。
しかし、VADモデルは、特にノイズ環境下では、音声区間の検出に失敗することがあり、後続のSERモデルの性能低下を招く可能性がある。
本論文では、ノイズ環境下におけるVAD出力の不正確さに起因するSER性能の低下という問題に対処するため、SSL特徴量を用いてVADモジュールとSERモジュールをEnd-to-Endで統合する手法を提案する。
提案手法の概要
SSLモジュールにより、入力音声からSSL特徴量を抽出する。
VADモジュールは、SSL特徴量を入力として受け取り、音声区間を検出する。
SERモジュールは、VADモジュールによって分割されたSSL特徴量を入力として受け取り、感情認識を行う。
VADモジュールとSERモジュールは、SERの損失を最小化するように共同で学習される。
提案手法の利点
VADモジュールは、SERに重要な感情音声区間を含むように学習されるため、ノイズ環境下でもより正確な音声区間検出が可能になる。
SERモジュールは、VADモジュールからの不完全な区間に対しても頑健になるように学習される。