Core Concepts
大規模言語モデルを使用した高品質ビデオ生成の可能性を示す。
Abstract
VideoPoetは、画像、ビデオ、テキスト、および音声などの多様な入力を処理するためのデコーダー専用トランスフォーマーアーキテクチャを使用しています。
プレトレーニングとタスク固有適応の2つの段階でトレーニングプロトコルが行われます。
VideoPoetはゼロショットビデオ生成において最先端の能力を示し、高忠実度の動きを強調しています。
LLM(Large Language Models)は、言語、コード、音声などさまざまなモダリティで基本モデルとして使用されていますが、依然として拡散モデルがビデオ生成に主流です。
Stats
VideoPoetはゼロショットビデオ生成において最先端の能力を示します。
プレトレーニングとタスク固有適応の2つの段階でトレーニングプロトコルが行われます。