核心概念
Art2Mus 是一種基於 AudioLDM 2 架構的新型深度學習模型,旨在根據數位化藝術作品生成音樂,為藝術家提供創新工具,並豐富觀眾的多媒體體驗。
摘要
論文資訊
- 標題:Art2Mus:透過跨模態生成技術,搭建視覺藝術與音樂的橋樑
- 作者:Ivan Rinaldi, Nicola Fanelli, Giovanna Castellano, and Gennaro Vessio
- 機構:義大利巴里阿爾多莫羅大學計算機科學系
- 發表於:ECCV 2024 的 AI for Visual Arts (AI4VA) 研討會
研究目標
本研究旨在開發一種名為 Art2Mus 的深度學習模型,該模型能夠根據數位化藝術作品生成與之相應的音樂。
方法
- 研究人員使用 ImageBind 模型從 ArtGraph 藝術知識圖譜中的數位化藝術作品和 Free Music Archive 資料集中的音樂曲目創建了兩個新的合成資料集。
- Art2Mus 模型基於 AudioLDM 2 架構,並引入了一個圖像編碼器,該編碼器使用 ImageBind 從數位化藝術作品中創建嵌入。
- 此外,還使用了一個文本編碼器,該編碼器採用 FLAN-T5 從設計的句子中生成文本嵌入,以指導音樂生成過程。
- 該模型使用均方誤差 (MSE) 損失和信噪比 (SNR) 損失進行訓練。
- 評估指標包括 Kullback-Leibler 散度 (KL-Div)、Frechet 音頻距離 (FAD) 分數和 ImageBind 分數 (IBSc)。
主要發現
- Art2Mus 模型能夠根據數位化藝術作品生成音樂,但生成的音樂與藝術作品的契合度仍有待提高。
- 與基於文本生成音樂的 AudioLDM 2 模型相比,Art2Mus 在 KL-Div 指標上表現更佳,但在 FAD 和 IBSc 指標上表現稍遜。
- 主觀評估結果顯示,參與者普遍認為 AudioLDM 2 模型生成的音樂品質更高,更符合藝術作品的風格。
主要結論
- Art2Mus 模型為根據視覺藝術生成音樂提供了一個有前景的方向,但仍需進一步改進以提高生成音樂的品質和與藝術作品的契合度。
- 未來研究方向包括探索替代的嵌入模型和配對技術、利用更大、更高品質的資料集,以及增強圖像投影層以更好地捕捉藝術作品細節的細微差別。
局限性與未來研究方向
- 目前的資料集規模有限,且藝術作品和音樂的風格相對單一,未來需要構建更大、更多樣化的資料集。
- 模型生成的音樂品質仍有提升空間,需要探索更有效的音樂生成技術。
- 未來可以考慮將藝術作品的其他元數據(如歷史、地理或情感信息)納入模型,以生成更豐富、更貼切的音樂。
統計資料
ArtGraph 知識圖譜包含 116,475 件藝術作品,涵蓋 18 種流派和 32 種風格。
Free Music Archive (FMA) 資料集包含約 100 GB 的音樂數據,包括 106,574 個音樂文件,每個文件長 30 秒,來自 16,341 位藝術家。
Art2Mus 模型在單個 NVIDIA RTX 4090 24GB GPU 上進行訓練,訓練時間約為 8 到 21 GB 的 VRAM。
訓練過程使用了 AdamW 優化器,學習率為 2e–5,並使用恆定學習率排程器,預熱步數為 500 步,學習步數為 10,000 步。
Art2Mus 訓練了 20 個時期,批次大小為 4,梯度累積步數為 4 步。