核心概念
本研究提出了一個視覺引導的音樂合成系統,能夠通過解釋圖像所傳達的情感來生成音樂。該框架將圖像到文本和文本到音樂的任務分解,以提高使用最少數據的學習效率。我們還探索了文本描述的影響,並為此目的建立了情感繪畫音樂數據集。生成的音樂在各種指標上進行了定性評估,包括Fréchet音頻距離(FAD)、總諧波失真(THD)、Inception得分(IS)和KL散度。通過預訓練的CLAP模型測量了音頻-情感文本相似性,以證明生成的音樂與文本高度一致。
摘要
本研究旨在通過將視覺藝術和音樂相結合來增強可及性和多感官體驗。
首先,該方法包括一個情感標籤模型,用於有效感知圖像中傳達的情感。然後,使用BLIP圖像描述模型生成反映情感內容的圖像描述。為了進一步增強描述,我們引入了一個大型語言模型(LLM),它可以在描述中加入音樂相關的成分。
最後,我們使用MusicGen模型生成與圖像描述相匹配的音樂。我們提出了四個MusicGen模型的變體,逐步提高了生成音樂的質量、多樣性和噪音水平。這些模型包括:
- MG-S Emotive:使用單標籤情感標籤生成音樂。
- MG-S Narrative:使用BLIP模型生成更豐富的情感描述。
- MG-S Lyrical:使用LLM增強描述中的音樂上下文。
- MG-S Optimized:結合優化的描述和訓練管道,實現最佳性能。
這些模型的逐步改進突出了MusicGen在生成與複雜文本描述高度一致的高保真音樂方面的增強功能。
該工具有望在教育和治療環境中增強學習體驗,提供獨特的多感官參與。未來的工作應該探索開發特定於此多模態上下文的評估指標,以提高評估的精確性,並推進基於文本的生成模型領域。
统计
以下是支持作者關鍵論點的重要數據:
"我們的評估集中在生成音樂的質量、多樣性和噪音水平,突出了理想模型輸入和典型用戶提供數據之間的差異。"
"研究還指出,適合培訓藝術-音樂生成模型的數據集可用性有限,並建議增加數據集的多樣性以獲得更好的模型培訓。"
"研究結果揭示了模型解釋單標籤和非音樂描述與用戶期望之間的重大差距,突出了對輸入數據更複雜處理的需求。"
"此外,該研究確定了模型的高推理時間是實時應用的一個挑戰,並建議進一步優化。"
引用
"藝術不是你所看到的,而是你讓別人看到的。" - 埃德加·德加