音声感情認識(SER)の性能と効率を向上させるために、課題適応事前学習(TAPT)と能動学習(AL)ベースの微調整フレームワークを提案する。
音声認識後の感情認識において、大規模言語モデル(LLM)のプロンプトエンジニアリングを通して、文脈情報と複数の音声認識システムの出力を効果的に活用する方法を提案し、その有効性を検証した。
本稿では、音声セグメントのみに焦点を当てたセグメント平均プーリング(SAP)を提案し、グローバル平均プーリング(GAP)と組み合わせることで、自己教師あり学習(SSL)特徴を用いた音声感情認識の精度向上を実現する。