Core Concepts
大規模言語モデルの力を活用し、視覚情報に基づいて音楽を生成するマルチモーダルフレームワークを提案する。
Abstract
本論文は、大規模言語モデル(LLM)を活用したマルチモーダル音楽生成フレームワーク「モーツァルトのタッチ」を提案している。このフレームワークは、3つの主要コンポーネントから構成される:
マルチモーダルキャプショニングモジュール:
画像や動画の入力を受け取り、テキストによる説明を生成する。
BLIP モデルを使用して、視覚情報を言語表現に変換する。
LLM理解&ブリッジングモジュール:
キャプショニングモジュールで生成されたテキスト説明を、音楽生成に適したプロンプトに変換する。
LLMの強力な理解力を活用し、視覚情報と音楽情報の橋渡しを行う。
音楽生成モジュール:
ブリッジングモジュールで生成されたプロンプトを入力として、MusicGenモデルを使用して音楽を生成する。
この3つのモジュールを組み合わせることで、視覚情報に基づいて適切な音楽を生成することができる。
実験の結果、提案手法は既存の手法を上回る性能を示し、マルチモーダル音楽生成の新しいベースラインとなることが示された。
Stats
画像キャプションを音楽プロンプトに変換する際、「雄大な管弦楽編曲、迫力のある金管ファンファーレ、そして高揚感のある弦楽器が織りなす、英雄的な戦闘シーンにふさわしい壮大な雰囲気」
動画キャプションを音楽プロンプトに変換する際、「クラシックチェンバーミュージックの一曲、繊細なピアノアコンパニメントと調和するチェロのデュエット、優雅で洗練された響きが融合し、交響曲のような壮大な作品」
Quotes
「大規模言語モデル(LLM)の力を活用し、視覚情報に基づいて音楽を生成するマルチモーダルフレームワークを提案する」
「提案手法は既存の手法を上回る性能を示し、マルチモーダル音楽生成の新しいベースラインとなることが示された」