核心概念
深層学習によって生成された低次元の話者アイデンティティ表現空間は、fMRIデータから話者アイデンティティ情報を再構築することができる。
要約
本研究では、話者アイデンティティ情報を効果的に表現できる低次元の潜在空間を深層学習モデルを用いて生成し、その潜在空間と脳活動の関係を調べた。
まず、182,000件の250ms音声サンプルから405人の話者のデータを用いて、バリエーショナル・オートエンコーダーを訓練し、128次元の話者アイデンティティ表現空間(VLS)を得た。この VLSは、話者の性別や年齢、個人識別情報を良好に保持していることが確認された。
次に、3人の参加者に対して fMRIを用いて約12,000件の音声刺激に対する脳活動を測定した。VLSと脳活動の関係を分析した結果、VLSは特に二次聴覚野の活動パターンを良く説明することが分かった。また、VLSを用いて脳活動から音声を再構築すると、性別、年齢、個人識別が可能な音声が得られた。一方、線形オートエンコーダーによる再構築では、これらの情報が保持されていなかった。
以上の結果から、深層学習によって生成された低次元の話者アイデンティティ表現空間は、二次聴覚野における話者アイデンティティ情報の脳内表現を良く捉えており、脳活動からの音声再構築にも有効であることが示された。
統計
話者性別分類の正答率: LIN 97.64%, VLS 98.59%
話者年齢分類の正答率: LIN 64.39%, VLS 67.31%
話者個人識別の正答率: LIN 40.52%, VLS 38.40%
再構築音声の性別分類正答率: LIN 72.08%, VLS 63.89%
再構築音声の年齢分類正答率: LIN 63.96%, VLS 65.00%
再構築音声の個人識別正答率: LIN 9.48%, VLS 16.18%
引用
"深層学習によって生成された低次元の話者アイデンティティ表現空間は、二次聴覚野における話者アイデンティティ情報の脳内表現を良く捉えており、脳活動からの音声再構築にも有効である。"
"VLSを用いて脳活動から音声を再構築すると、性別、年齢、個人識別が可能な音声が得られた。一方、線形オートエンコーダーによる再構築では、これらの情報が保持されていなかった。"