Khái niệm cốt lõi
Das vorgeschlagene PromptCodec-Modell nutzt disentanglierte Repräsentationslernung und adaptive merkmalsbewusste Prompt-Encoder, um eine hochwertige Sprachrekonstruktion bei hohen Kompressionsraten zu erreichen.
Tóm tắt
Das PromptCodec-Modell ist ein neuartiges hochleistungsfähiges neuronales Sprachcodec-Framework, das disentanglierte Repräsentationslernung und adaptive merkmalsbewusste Prompt-Encoder verwendet.
Kernpunkte:
- Durch den Einsatz zusätzlicher Prompt-Encoder kann PromptCodec die für die Verarbeitung erforderlichen Sprachinformationen verteilen und die Fähigkeiten seines Encoder-Teils verbessern.
- Es wird eine neuartige Strategie zur disentangierten Repräsentationslernung auf Basis von Kosinus-Distanz vorgeschlagen, um die Effizienz der PromptCodec-Encoder sicherzustellen.
- Eine einfache, aber effektive adaptive merkmalsbezogene Fusionsmethode wird eingeführt, um die Audiorekonstruktionsqualität von PromptCodec weiter zu verbessern.
Experimente auf dem LibriTTS-Datensatz zeigen, dass PromptCodec im Vergleich zu state-of-the-art neuronalen Sprachcodec-Methoden in allen Metriken unter verschiedenen Bitraten die beste Leistung erzielt. Die Vorteile von PromptCodec sind bei Szenarien mit hohen Kompressionsraten (niedrige Bitrate) besonders deutlich.
Thống kê
Bei einer Codebuchgröße von 1 erreicht PromptCodec einen PESQ-Wert von 2,697, einen STOI-Wert von 0,937 und einen MCD-Wert von 0,863, was einer relativen Verbesserung von 65,1% und 9,7% bei PESQ und STOI sowie einer relativen MCD-Reduktion von 34,2% gegenüber dem zweitbesten Verfahren TiCodec entspricht.
Trích dẫn
"Durch den Einsatz der auf disentanglierter Repräsentationslernung basierenden adaptiven merkmalsbewussten Prompt-Encoder konnte die Gesamtleistung der neuronalen Sprachcodecs verbessert werden, was die Effektivität unseres vorgeschlagenen Verfahrens belegt."