本研究は、絵画に表現された感情を音楽に変換するシステムを開発しています。主な取り組みは以下の通りです:
絵画の感情を分類するための画像分類モデルを構築しました。ResNet50をベースとし、追加のGRUレイヤーとAttentionレイヤーを組み込んでいます。
BLIP画像キャプショニングモデルを使用して、絵画の感情的な説明文を生成しました。感情ラベルを入力条件として使用することで、より関連性の高い説明文を得ることができます。
音楽的な用語を含む拡張された説明文を生成するために、大規模言語モデルのFalconを活用しました。これにより、音楽生成モデルに適した入力を提供できるようになりました。
絵画の感情に基づいて音楽を生成するために、MusicGenモデルを段階的に改良しました。感情ラベル、絵画の説明文、音楽的な説明文を入力条件として使用することで、生成された音楽と入力情報の整合性が向上しました。
生成された音楽の品質を評価するために、Frechet Audio Distance、CLAP、Total Harmonic Distortion、Inception Score、KL divergenceなどの指標を使用しました。これらの指標から、提案手法の有効性が確認できました。
本研究は、視覚芸術と音楽の融合を目指すものであり、視覚障害者への支援や教育・療養分野での応用が期待されます。今後は、より高度な多モーダル生成モデルの開発や、ユーザー評価を通じた実用性の検証が課題となります。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Tanisha Hisa... ที่ arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07827.pdfสอบถามเพิ่มเติม