本研究では、PromptCodecと呼ばれる新しいニューラルスピーチコーデックフレームワークを提案している。PromptCodecの主な特徴は以下の通りである:
従来のコーデックエンコーダに加えて、Mel-スペクトログラムに基づく条件付きプロンプトエンコーダと、事前学習された話者特徴ベースのプロンプトエンコーダを導入している。これにより、圧縮に必要な情報を分散して処理することができ、特に高圧縮率の場合の性能を向上させている。
エンコーダの効率性を高めるため、新しい特徴量の分離表現学習手法を提案している。これは、エンコーダ間の特徴の重複を抑制することで、情報利用効率を高めるものである。
異なるエンコーダの特徴を適応的に融合する手法を導入し、PromptCodecの性能をさらに向上させている。
実験結果から、提案手法PromptCodecは、従来の最先端ニューラルスピーチコーデックと比較して、特に高圧縮率の条件下で大幅な性能向上を示すことが確認された。例えば、1つのコードブックを使用した場合、PromptCodecはPESQで65.1%、STOIで9.7%の相対的な改善を達成し、MCDでは34.2%の相対的な改善を示した。これらの結果は、提案手法の有効性を示すものである。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies