Core Concepts
RAVEモデルの潜在ベクトルを新規性探索アルゴリズムで進化させることで、高品質かつ多様な音声サンプルを生成できる。
Abstract
本研究では、深層学習モデルRAVEと進化アルゴリズムの新規性探索を組み合わせた手法LVNS-RAVEを提案している。
RAVEモデルは高品質な音声生成が可能だが、生成サンプルの多様性に課題がある。一方、進化アルゴリズムは多様な解を生成できるが、定量的な品質評価が難しい。
LVNS-RAVEでは、RAVEモデルの潜在ベクトルを進化アルゴリズムの遺伝子として扱い、VGGishモデルによる知覚的な距離を新規性の評価指標として用いる。これにより、高品質かつ多様な音声サンプルを生成できる。
実験では、3種類の事前学習済みRAVEモデルと4種類の実験設定を検討した。結果、世代を重ねるごとに生成サンプルの多様性が高まることが確認できた。また、初期化方法や世代数、集団サイズなどの設定によって、多様性の増加パターンが異なることも示された。
本手法は、音楽家や音声アーティストにとって創造的なツールとなる可能性がある。今後は、より大規模な実験や人間評価による検証、さらなる進化手法の改善などが課題として挙げられる。
Stats
RAVEモデルの潜在ベクトルの次元数は8~20次元程度である。
VGGishモデルによる知覚的な距離を新規性の評価指標として用いている。
k-最近傍法によって、各サンプルの新規性(スパース性)を算出している。
Quotes
"Evolutionary Algorithms and Generative Deep Learning have been two of the most powerful tools for sound generation tasks. However, they have limitations: Evolutionary Algorithms require complicated designs, posing challenges in control and achieving realistic sound generation. Generative Deep Learning models often copy from the dataset and lack creativity."
"To combine the fidelity of Deep Learning models and the diversity of Evolutionary Algorithms, Bontrager et al. [1] introduced Latent Variable Evolution (LVE)."