Core Concepts
テキストの説明に基づいて、同期した音声と動画を生成することが可能になる。
Abstract
本研究では、テキストから音声付き動画を生成するという新しいタスク「Text to Audible-Video Generation (TAVG)」を提案している。従来の動画生成タスクでは、テキストから動画のみを生成していたが、本タスクでは動画と同期した音声の生成も要求される。
このタスクを支援するために、TAVGBenchという大規模なベンチマークデータセットを開発した。TAVGBenchには170万以上の動画クリップが含まれ、合計11.8千時間分のデータがある。自動アノテーションパイプラインを設計し、各動画クリップの音声と動画の詳細な説明文を生成している。また、生成された音声と動画の整合性を評価するための新しい指標「Audio-Visual Harmoni score (AVHScore)」を提案した。
さらに、TAVDiffusionという基準モデルを提案した。これは潜在空間拡散モデルに基づいており、マルチモーダルの特徴統合と特徴制約の2つの戦略を用いて、音声と動画の整合性を実現している。TAVGBenchを用いた実験の結果、提案手法の有効性が示された。
Stats
動画と音声の整合性を示す指標AVHScoreが29.06と高い値を示している。
動画の品質を示すFVDが776.25、KVDが104.26と良好な値を示している。
音声の品質を示すFADが1.46と良好な値を示している。
Quotes
"テキストの説明に基づいて、同期した音声と動画を生成することが可能になる。"
"TAVGBenchには170万以上の動画クリップが含まれ、合計11.8千時間分のデータがある。"
"自動アノテーションパイプラインを設計し、各動画クリップの音声と動画の詳細な説明文を生成している。"