Centrala begrepp
Das vorgeschlagene PromptCodec-Modell nutzt disentanglierte Repräsentationslernung und adaptive merkmalsbewusste Prompt-Encoder, um eine hochwertige Sprachrekonstruktion bei hohen Kompressionsraten zu erreichen.
Sammanfattning
Das PromptCodec-Modell ist ein neuartiges hochleistungsfähiges neuronales Sprachcodec-Framework, das disentanglierte Repräsentationslernung und adaptive merkmalsbewusste Prompt-Encoder verwendet.
Kernpunkte:
- Durch den Einsatz zusätzlicher Prompt-Encoder kann PromptCodec die für die Verarbeitung erforderlichen Sprachinformationen verteilen und die Fähigkeiten seines Encoder-Teils verbessern.
- Es wird eine neuartige Strategie zur disentangierten Repräsentationslernung auf Basis von Kosinus-Distanz vorgeschlagen, um die Effizienz der PromptCodec-Encoder sicherzustellen.
- Eine einfache, aber effektive adaptive merkmalsbezogene Fusionsmethode wird eingeführt, um die Audiorekonstruktionsqualität von PromptCodec weiter zu verbessern.
Experimente auf dem LibriTTS-Datensatz zeigen, dass PromptCodec im Vergleich zu state-of-the-art neuronalen Sprachcodec-Methoden in allen Metriken unter verschiedenen Bitraten die beste Leistung erzielt. Die Vorteile von PromptCodec sind bei Szenarien mit hohen Kompressionsraten (niedrige Bitrate) besonders deutlich.
Statistik
Bei einer Codebuchgröße von 1 erreicht PromptCodec einen PESQ-Wert von 2,697, einen STOI-Wert von 0,937 und einen MCD-Wert von 0,863, was einer relativen Verbesserung von 65,1% und 9,7% bei PESQ und STOI sowie einer relativen MCD-Reduktion von 34,2% gegenüber dem zweitbesten Verfahren TiCodec entspricht.
Citat
"Durch den Einsatz der auf disentanglierter Repräsentationslernung basierenden adaptiven merkmalsbewussten Prompt-Encoder konnte die Gesamtleistung der neuronalen Sprachcodecs verbessert werden, was die Effektivität unseres vorgeschlagenen Verfahrens belegt."