本研究では、話者アイデンティティ情報を効果的に表現できる低次元の潜在空間を深層学習モデルを用いて生成し、その潜在空間と脳活動の関係を調べた。
まず、182,000件の250ms音声サンプルから405人の話者のデータを用いて、バリエーショナル・オートエンコーダーを訓練し、128次元の話者アイデンティティ表現空間(VLS)を得た。この VLSは、話者の性別や年齢、個人識別情報を良好に保持していることが確認された。
次に、3人の参加者に対して fMRIを用いて約12,000件の音声刺激に対する脳活動を測定した。VLSと脳活動の関係を分析した結果、VLSは特に二次聴覚野の活動パターンを良く説明することが分かった。また、VLSを用いて脳活動から音声を再構築すると、性別、年齢、個人識別が可能な音声が得られた。一方、線形オートエンコーダーによる再構築では、これらの情報が保持されていなかった。
以上の結果から、深層学習によって生成された低次元の話者アイデンティティ表現空間は、二次聴覚野における話者アイデンティティ情報の脳内表現を良く捉えており、脳活動からの音声再構築にも有効であることが示された。
To Another Language
from source content
biorxiv.org
Key Insights Distilled From
by Lamothe,C., ... at www.biorxiv.org 02-28-2024
https://www.biorxiv.org/content/10.1101/2024.02.27.582302v2Deeper Inquiries