以繪畫為基礎的音樂創作 - 探索通過繪畫生成基於情感的音樂
本研究提出了一個視覺引導的音樂合成系統,能夠通過解釋圖像所傳達的情感來生成音樂。該框架將圖像到文本和文本到音樂的任務分解,以提高使用最少數據的學習效率。我們還探索了文本描述的影響,並為此目的建立了情感繪畫音樂數據集。生成的音樂在各種指標上進行了定性評估,包括Fréchet音頻距離(FAD)、總諧波失真(THD)、Inception得分(IS)和KL散度。通過預訓練的CLAP模型測量了音頻-情感文本相似性,以證明生成的音樂與文本高度一致。