Die Autoren untersuchen die Leistungsfähigkeit von neuronaler Kompression (NTC) bei der Kompression von i.i.d. Vektorsequenzen und allgemeinen Vektorquellen. Sie zeigen, dass NTC bei i.i.d. Vektorsequenzen suboptimal ist, da es nur eine skalare Quantisierung im latenten Raum verwendet, anstatt eine optimale Vektorquantisierung zu nutzen.
Um dies zu verbessern, schlagen die Autoren Gitter-Transformations-Codierung (LTC) vor. LTC ersetzt die skalare Quantisierung in NTC durch eine Gitterquantisierung im latenten Raum. Dies ermöglicht es LTC, die optimale Vektorquantisierung für i.i.d. Vektorsequenzen zu erreichen, ohne den exponentiellen Komplexitätsanstieg einer direkten Codebuchsuche. Für allgemeine Vektorquellen kann LTC die Leistung von NTC als Ein-Schritt-Codierung verbessern. Darüber hinaus ermöglicht LTC Block-Codierung für i.i.d. Vektorsequenzen, was die Leistung weiter an die Rate-Distortion-Grenze annähert.
Die Autoren diskutieren verschiedene Designaspekte von LTC, wie die Wahl des Gitters, das Quantisierungstraining, die Dichteschätzung und die Transformationsarchitektur, und zeigen deren Einfluss auf die Leistung.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Eric Lei,Ham... às arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07320.pdfPerguntas Mais Profundas