Core Concepts
アフリカ系アメリカ人女性の専門的な音声を再現するために開発されたTTSシステムにおける人種表現の課題と結果を探求する。
Abstract
この論文は、AIエージェントやロボットの表現が主に白人であることに焦点を当て、アフリカ系アメリカ人女性の専門的な音声を再現するTTSシステムの開発プロセスと技術的課題について探究しています。以下は論文内容の概要です。
1. 導入
現在使用されている米国英語TTSシステムは主に白人として認識されます。
プロジェクトの最終目標は、デザイナーや企業が明確にアフリカ系アメリカ人として認識できる専門的な声を選択できるようにすることです。
2. 開発ガイドライン、選択基準、および声優ランキングに関する初期研究
アフリカ系アメリカ人から倫理上の問題やガイドラインを収集しました。
適切な代表者を選択し、TTSシステムを作成しました。
3. TTSシステム概要
アコースティックモデルとバコーダーからなるTTSアーキテクチャが使用されました。
AA voiceモデルはMS(マルチスピーカー)モデルが選択されました。
4. 合成プロトタイプ生成
AA voiceモデルは他言語版も含めたMSモデルで訓練されました。
MSモデルがSS(単一話者)モデルよりも品質が向上したことが示唆されました。
5. AA VOICEおよびWH VOICEの評価:Study 1 & Study 2
6. アフリカ系アメリカ人向けフォーカスグループ:Study 3
Stats
"米国英語話者はAA TTS音声を正しく識別できませんでした。"
"AA TTS音声サンプル7つ中6つが「White」に関連付けられました。"