本研究では、声の性別を連続的な「声の女性性パーセンテージ(VFP)」として表現するシステムを開発した。41人のシスジェンダーおよびトランスジェンダーの話者から収集したコーパスを用いて、57人の参加者による知覚評価実験を行い、VFPを定義した。
次に、2D CNNおよびX-vectorベースの機械学習モデルを構築し、VFPの予測を行った。シスジェンダーの声に対しては非常に高い精度(R2 > 0.99)が得られたが、トランスジェンダーの声に対しても良好な精度(R2 = 0.94)が得られた。これは、基本周波数やvocal tract lengthのみに基づく従来の手法よりも優れている。
モデルの性能は話者の年齢によって変化し、高齢者ほど精度が低下する傾向がみられた。これは、声の特徴が年齢とともに変化することを示唆している。
本システムは、トランスジェンダーの声の移行過程を支援するツールとして活用できると期待される。今後は、実際のユーザーを対象とした評価や、自然会話音声への適用などが課題となる。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Davi... às arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15176.pdfPerguntas Mais Profundas