核心概念
Eine generische Methode zur Verbesserung der Leistung bestehender unüberwachter Audiotrennungsverfahren, indem Überwachungssignale aus der Sprachmodaliät gewonnen werden, ohne Zugriff auf Einzelquell-Audiobeispiele während des Trainings.
要約
Der Artikel präsentiert einen generischen Rahmen für schwach überwachte Audiotrennung, der die Leistung unüberwachter Verfahren deutlich verbessert. Der Schlüssel ist die Nutzung von Textbeschreibungen der Audiomischungen, um Überwachungssignale für die Trennung einzelner Quellen zu generieren, ohne dass Einzelquell-Audiobeispiele während des Trainings erforderlich sind.
Der Ansatz besteht aus zwei Hauptkomponenten:
- Unüberwachtes Mix-and-Separate-Training: Ähnlich wie bestehende unüberwachte Methoden werden Mischungen von Mischungen verwendet, um ein Trennungsmodell zu trainieren. Dies allein führt jedoch zu einer Diskrepanz zwischen Training und Test, da das Modell nie Einzelquell-Bedingungen sieht.
- Schwach überwachtes Audio-Sprach-Training: Um diese Diskrepanz zu überbrücken, nutzt der Ansatz eine vortrainierte Sprach-Audio-Einbettung (CLAP), um eine kontrastive Verlustfunktion zu definieren. Diese erzwingt, dass die vom Modell vorhergesagten Einzelquellen semantisch ähnlich zu den entsprechenden Textbeschreibungen sind, ohne dass Einzelquell-Audiobeispiele erforderlich sind.
Die Autoren zeigen, dass dieser Ansatz die Leistung unüberwachter Basislinien deutlich verbessert, indem er 71% Steigerung der Signal-Störabstand-Rate (SDR) erreicht und 97,5% der überwachten Leistung erreicht. Darüber hinaus zeigen die Experimente, dass der Ansatz auch die Leistung überwachter Lernverfahren um bis zu 17% verbessern kann, indem er große Mengen unüberwachter Daten nutzt und eine natürliche Regularisierung bietet.
統計
Die Trennung von 2-Komponenten-Mischungen erreicht 97,5% der Leistung des überwachten Ansatzes, wenn das Modell nur auf 2-Komponenten-Mischungen trainiert wird.
Der vorgeschlagene Ansatz erzielt eine Steigerung der SDR-Leistung um 71%, 102% und 129% gegenüber dem Mix-and-Separate-Basislinienmodell, wenn er auf 2-, 3- und 4-Komponenten-Mischungen trainiert wird.
In moderaten semi-überwachten Szenarien erreicht der Ansatz eine Steigerung der SDR-Leistung um 17%, 8% und 6% gegenüber dem überwachten Lernen für 2-Komponenten-Trennung, wenn auf 2-, 3- und 4-Komponenten-Mischungen trainiert wird.
引用
"Eine generische Methode zur Verbesserung der Leistung bestehender unüberwachter Audiotrennungsverfahren, indem Überwachungssignale aus der Sprachmodaliät gewonnen werden, ohne Zugriff auf Einzelquell-Audiobeispiele während des Trainings."
"Der Schlüssel ist die Nutzung von Textbeschreibungen der Audiomischungen, um Überwachungssignale für die Trennung einzelner Quellen zu generieren, ohne dass Einzelquell-Audiobeispiele während des Trainings erforderlich sind."