The author proposes a novel approach, BLAT, for audio-text pre-training using AudioSet tag-guided synthetic data to eliminate noise from the visual modality. The model achieves state-of-the-art performance on various downstream tasks.
Die Studie präsentiert eine innovative Methode zur Erzeugung von hochwertigen Audio-Text-Daten durch Audio-Captioning und kontrastives Pre-Training, was zu verbesserten Leistungen in verschiedenen Audio-bezogenen Aufgaben führt.