ASiT: Lokal-Globales Audio-Spektrogramm-Vision-Transformer für Ereignisklassifikation
ASiT ist ein neuartiges selbstüberwachtes Lernframework, das lokale und globale Kontextinformationen für Audio-Spektrogramme erfasst und die Leistung in verschiedenen Audio- und Sprachklassifikationstasks verbessert.