Core Concepts
TIMITデータセットを用いて、ジェンダー分類、アクセント分類、年齢推定、スピーカー識別の4つのタスクを探索し、マルチタスク学習とシングルタスク学習アプローチの長所と課題を明らかにした。
Abstract
本研究では、TIMITデータセットを用いて4つのスピーカープロファイリングタスク(ジェンダー分類、アクセント分類、年齢推定、スピーカー識別)を探索し、マルチタスク学習とシングルタスク学習アプローチの比較を行った。
データの前処理では、ジェンダーとアクセントの不均衡を解消するためにデータ拡張を行った。ジェンダー分類は単純な問題であり、MFCCの特徴量を用いたMLP モデルで高精度を達成した。一方、アクセント分類は非常に困難な問題であり、様々な特徴量とモデルを試したが、21%程度の精度しか得られなかった。年齢推定では、MFCCを入力とするCNNモデルが最も良い性能を示した。
マルチタスク学習とシングルタスク学習を比較した結果、ジェンダーと年齢の予測ではマルチタスク学習が同等以上の性能を示したが、アクセント分類ではシングルタスク学習の方が優れていた。これは、タスクの複雑さの違いが影響していると考えられる。
スピーカー識別タスクでは、629クラスの識別問題にもかかわらず、MFCCやMelなどの特徴量を用いたLSTMモデルが83%のF1スコアを達成した。これは、アクセント分類よりも容易な問題であり、学習済みの話者の特徴を活用できるためと考えられる。
本研究の結果から、マルチタスク学習は関連性の高く複雑度の似たタスクに適しており、アクセント分類のような困難なタスクを含む場合は適切ではないことが示された。また、特徴量設計の重要性が確認された。今後の課題として、転移学習やTransformerベースのモデル、スピーカーエンベディング手法の検討が挙げられる。
Stats
ジェンダー分類のMFCC特徴量の精度:
MFCC(13): 精度0.941
MFCC(30): 精度0.986
MFCC(40): 精度0.986
年齢推定のRMSE:
MFCC(40)-MLP: 10.82
MFCC(30)-LSTM: 10.26
MFCC(30)-CNN: 9.24
スピーカー識別のF1スコア:
MFCC(40)-MLP: 0.75
MFCC(40)-LSTM: 0.76
MFCC(40)+Mel(64)-MLP: 0.80
MFCC(40)+Mel(64)-LSTM: 0.83
5種特徴-MLP: 0.80
5種特徴-LSTM: 0.83