Core Concepts
Ein Ansatz zur Steuerung von autoreggressiven generativen Musikmodellen mittels Klassifikatorproben, der die Ausgabe des Modells an bestimmte musikalische Merkmale anpasst und gleichzeitig die musikalische Kohärenz der generierten Musik erhält.
Abstract
Der Artikel stellt einen Ansatz namens "Self-Monitored Inference-Time INtervention" (SMITIN) vor, um die Ausgabe eines vortrainierten autoreggressiven Musikgenerierungsmodells (MusicGen) zu kontrollieren. Dazu werden einfache logistische Regressionsproben auf die Ausgabe der einzelnen Aufmerksamkeitsköpfe des Transformers trainiert, um die Anwesenheit bestimmter musikalischer Merkmale (z.B. Schlagzeug, Bass, Gitarre, Klavier) zu erkennen. Diese Proben werden dann verwendet, um die Aufmerksamkeitsköpfe in eine Richtung zu lenken, die das gewünschte musikalische Merkmal verstärkt. Zusätzlich überwacht das System selbstständig die Ausgabe der Proben, um zu vermeiden, dass zu viel Intervention in den autoreggressiven Generierungsprozess eingefügt wird, was zu zeitlich inkohärenter Musik führen könnte. Die Ergebnisse zeigen, dass SMITIN die Generierung von Musik mit den gewünschten Instrumenten ermöglicht, ohne die musikalische Qualität und Kohärenz übermäßig zu beeinflussen. Der Ansatz bietet Flexibilität, um den Grad der Intervention an die Präferenzen des Nutzers anzupassen.
Stats
"Die Testgenauigkeit der Proben von MusicGenlarge für Schlagzeug und Gitarre liegt bei 94,3% bzw. 81,8%."
"Der durchschnittliche Testgenauigkeit der Proben über alle Instrumente liegt bei 85,1%."
Quotes
"Wir führen den Erfolgsgrad ein, um die Wirksamkeit des ITI-Prozesses beim erfolgreichen Hinzufügen des gewünschten Instruments zur Musik zu quantifizieren."
"Unsere vorgeschlagene Soft-Gewichtung zeigt eine ausgewogene Leistung über verschiedene Metriken hinweg, ohne eine aufgabenspezifische Abstimmung von K zu erfordern."