本論文では、台湾客家語のテキスト・トゥ・スピーチ(TTS)システムであるVoxHakkaを紹介する。VoxHakkaは、YourTTSフレームワークを活用し、6つの異なる客家方言に対応できる高品質なスピーチ合成を実現している。
データ収集では、政府のウェブサイトや公的機関のリソースからウェブスクレイピングを行い、自動音声認識(ASR)に基づくデータクリーニング手法を用いて高品質なマルチスピーカー、マルチ方言のデータセットを構築した。
主観的な聴取テストの結果、VoxHakkaは既存の公開されている客家語TTSシステムと比べて、発音の正確性、トーンの正確性、全体的な自然性において大幅に優れていることが示された。
この取り組みは、客家語の言語技術の大きな前進を示すものであり、言語保護と活性化の取り組みに貴重な資源を提供するものである。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы