Основні поняття
動画の視覚的コンテキストから音声を生成する新しい手法を提案する。これにより、CCTV映像の分析の向上、歴史的動画の復元、ビデオ生成モデルの改善などの実用的な応用が期待できる。
Анотація
本研究は、動画から音声を生成する新しい手法を提案している。従来の研究では、CNNとWaveNetを使用していたが、音声の多様性と一般化の課題があった。
本手法では、3D Vector Quantized Variational Autoencoder (VQ-VAE)を使ってビデオの空間的・時間的構造を捉え、カスタムの音声デコーダを使って幅広い音声を生成する。
Youtube8Mデータセットの「飛行機」カテゴリーを使って学習を行い、CCTV映像分析、無声映画の復元、ビデオ生成モデルの改善などへの応用を目指している。
具体的には以下のような特徴がある:
VQ-VAEエンコーダにより、ビデオを離散的な表現に変換
全結合ニューラルネットワークのデコーダにより、ビデオの離散表現から音声波形を生成
学習時には、ビデオの離散表現と対応する音声を使って最適化
推論時には、ビデオのみを入力とし、音声を生成
Статистика
動画の解像度を256x144にスケーリングし、10秒のセグメントに分割
音声は-1から1の範囲に正規化