本研究では、SERタスクと事前学習の自動音声認識(ASR)タスクの間の情報ギャップを最小化するためにTAPTを使用し、ノイズに強く効率的な微調整を実現するためにALを活用する。
具体的には以下の3つのステップを行う:
実験の結果、提案手法のAFTERは、IEMOCAP、Merged Dataset、Merged-2 Datasetの4つの感情カテゴリで、ベースラインよりも8.45%高い正解率を達成し、79%の時間消費を削減できることを示した。さらに、SAVEEデータセットの7つの感情カテゴリでも優れた性能を示した。
To Another Language
from source content
arxiv.org
Głębsze pytania