Основні поняття
ニューラルベースの音響モデルが異種な情報を保持し、上位層は無用な情報を削除することが示唆される。
Анотація
深層学習アーキテクチャは多くの研究分野で性能向上を遂げており、自動音声認識(ASR)分野もその恩恵を受けている。本論文では、ASR音響モデル(AM)内にエンコードされた情報を詳細に分析し、異なるタスクにおける性能変化と対象タスクに関連する特定の情報断片が重要であるかどうかを検証している。実験結果から、ニューラルベースのAMは感情や話者アイデンティティなど、音素認識とは関係のない異種な情報を保持していることが明らかになった。また、低レベルの隠れ層は情報構造化に役立ち、上位層は音素認識に無用な情報を削除する傾向があることが示唆された。
Статистика
Speaker verification task: EER値が1.97で最高精度。
Speaking rate task: 最高精度0.68。
Speaker gender task: 最高精度0.97。
Acoustic environments task: 最高精度0.76。
Speech sentiment/emotion recognition task: 感情分類では最高精度0.50。
Цитати
"Lower levels pick up surrounding noise better, with best performance achieved with Layer4 on the acoustic environments task."
"Information which seems useless in AM for the ASR task is preserved."
"The proposed work highlighted that the information is not encoded in the same way within the AM."