Die Studie untersucht die Anwendung von Large Language Models (LLMs) auf das Vortraining von Musik. Während die verbreitete Verwendung von MIDI in der Musikmodellierung gut etabliert ist, deuten die Ergebnisse darauf hin, dass LLMs inhärent besser mit der ABC-Notation kompatibel sind, die näher an ihrer Konzeption und ihren Stärken liegt und so die Leistung des Modells bei der musikalischen Komposition verbessert.
Um die Herausforderungen im Zusammenhang mit nicht synchronisierten Takten aus verschiedenen Spuren während der Generierung zu bewältigen, schlagen wir die Entwicklung einer synchronisierten Mehrspurnotation in ABC-Notation (SMT-ABC-Notation) vor, die darauf abzielt, die Kohärenz über mehrere musikalische Spuren hinweg zu erhalten.
Zu den Beiträgen gehören eine Reihe von Modellen, die bis zu 8192 Token verarbeiten können und 90% der symbolischen Musikdaten in unserem Trainingsdatensatz abdecken. Darüber hinaus untersuchen wir die Auswirkungen des Symbolic Music Scaling Law (SMS Law) auf die Modellleistung. Die Ergebnisse deuten auf eine vielversprechende Richtung für zukünftige Forschungen zur Musikgenerierung hin und bieten umfangreiche Ressourcen für gemeinschaftsgetriebene Forschung durch unsere Open-Source-Beiträge.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xingwei Qu,Y... a las arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.06393.pdfConsultas más profundas