Core Concepts
長時間の音楽的構造を持つ完全な音楽トラックを生成することができる。
Abstract
本研究では、長時間の音楽的構造を持つ完全な音楽トラックを生成するためのモデルを提案している。モデルは以下の3つの主要コンポーネントから構成される:
オーディオをコンパクトな潜在表現に圧縮するオートエンコーダ
テキストと音声の対照学習に基づくテキスト符号化モデル
オートエンコーダの潜在表現上で動作するディフュージョントランスフォーマー
オートエンコーダは大幅な時間的ダウンサンプリングを行い、21.5Hzの低い潜在率を実現している。これにより、長時間の文脈を学習することが可能となり、4分45秒までの長さの音楽を生成できるようになった。
定量的評価では、既存の手法よりも優れた結果を示し、主観的評価でも人間の生成物と遜色ない品質の音楽を生成できることが確認された。また、構造分析の結果から、セマンティックトークンを使わずとも長期的な音楽構造を生成できることが示された。
Stats
大半の楽曲は4分45秒よりも長い
提案モデルの生成時間は13秒
Quotes
既存のテキスト条件付きモデルは通常10-30秒の短い音楽セグメントを対象としているが、自然な音楽構造を生成するには十分な長さではない
セマンティックトークンは長期的な構造の一貫性を可能にするが、音響トークンのモデル化によって高品質な音声合成が可能になる