Core Concepts
本研究では、メル周波数ケプストラム係数(MFCC)を関数データとして扱い、深層学習による機能的多変量インデックスモデルを提案することで、音声感情認識の精度向上を図る。
Abstract
本研究の主な内容は以下の通りである:
MFCCを関数データとして扱い、各係数を時間の関数として表現することで、音声信号の動的な特性を捉える。
異なる長さの音声サンプルを比較するため、MFCCを一定の長さのチャンクに分割する。
チャンク単位のMFCCを多変量関数データとして扱い、機能的多変量インデックスモデルを適用する。これにより、MFCCの各係数間の相互依存性を考慮した特徴抽出が可能となる。
提案手法では、適応的な基底関数層と自動的なデータ変換探索を深層学習フレームワークに統合することで、MFCCから感情に関する特徴を抽出する。
IEMOCAPデータベースを用いた実験では、既存手法と比較して良好な性能を示した。
Stats
音声信号のスペクトログラムは以下のように定義される:
Spec(t, ω) = |∑T
u=1 s(t-u)wM(u) exp(-iωu)|
メル周波数ケプストラム係数(MFCC)は以下のように計算される:
MFCC(t, m) = 1/F ∑F
f=0 log(MelSpec(t,f)) exp(i(2πm-1/F+1)f)
Quotes
"感情認識は人間-ロボット対話において不可欠な側面であり、より自然で効果的なコミュニケーションを可能にする。"
"音声は感情認識において信頼性が高く情報量が多い手段の1つであり、音声感情認識の高度化は効果的かつ対応力のある人間-ロボットインターフェースの構築に不可欠である。"