Diese Studie untersucht die Leistungsfähigkeit von auf tiefer Vektorquantisierung (deep VQ) basierenden Audiorepräsentationen im Vergleich zu herkömmlichen Mel-Spektrogrammen für die Musikgenreerkennung.
Die Studie verwendet drei verschiedene Transformer-basierte Modelle - SpectroFormer, TokenFormer und CodebookFormer - um die Leistung bei der Genreklassifizierung zu vergleichen. SpectroFormer verwendet Mel-Spektrogramme als Eingabe, während TokenFormer und CodebookFormer die von VQ-VAE generierten Token bzw. Codebücher verwenden.
Die Ergebnisse zeigen, dass das SpectroFormer-Modell, das Mel-Spektrogramme verwendet, deutlich besser bei der Genreerkennung abschneidet als die auf deep VQ basierenden Modelle. Selbst mit Vortraining erreichen TokenFormer und CodebookFormer nur knapp über der Baseline-Leistung.
Die Studie argumentiert, dass die nicht-lineare und datenintensive Natur der deep VQ-basierten Repräsentationen die Genreklassifizierung erschwert, da sie die für die menschliche Wahrnehmung relevanten Feinheiten nicht ausreichend erfassen können. Im Gegensatz dazu sind Fourier-basierte Darstellungen wie Mel-Spektrogramme besser an die menschliche Hörwahrnehmung angepasst und daher für MIR-Aufgaben wie die Genreerkennung besser geeignet.
Insgesamt zeigt die Studie, dass Mel-Spektrogramme den auf deep VQ basierenden Audiorepräsentationen für die Musikgenreerkennung überlegen sind. Dies wirft Fragen zur Anwendbarkeit von deep VQ-Techniken in MIR-Aufgaben auf und hebt die Vorteile von Fourier-basierten Darstellungen hervor.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Navin Kamuni... às arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01058.pdfPerguntas Mais Profundas