Core Concepts
本稿では、RGB画像に加えて深度画像、話者位置、環境意味論などのマルチソース空間データを用いることで、より没入感のある環境に合わせた残響音声の生成を可能にする、MS2KU-VTTSと呼ばれる新しいマルチソース空間知識理解スキームを提案する。
Abstract
MS2KU-VTTS:没入型VTTSのためのマルチソース空間知識理解
He, S., Liu, R., & Li, H. (2024). Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech. arXiv preprint arXiv:2410.14101v1.
本研究は、視覚テキスト音声合成(VTTS)において、従来のRGB画像のみを用いた手法を超え、より現実に近い残響音声を生成することを目的とする。