Core Concepts
提案されたCoCoCoモデルは、動きの一貫性、テキスト制御性、および既存のパーソナライズされたT2Iモデルとの互換性を向上させることを目的としています。
Abstract
最近のビデオ生成技術に関する進歩にもかかわらず、多くの既存手法は一貫性や劣ったテキスト-ビデオ整合性の問題に苦しんでいる。
テキストガイドビデオインペインティング方法は、静止画像インペインティングとは異なり、フレーム間で動的なビデオコンテンツを生成します。
CoCoCoモデルは、動きの一貫性を改善する新しいダンプドグローバルアテンションを導入しました。
テキスト制御可能性を向上させるために、インスタンス感知型マスク領域選択戦略を設計しました。
既存のパーソナライズされたT2Iモデルと互換性があるように変換する戦略も導入されています。
Stats
提案された新しいダンプドグローバルアテンションにより、動きの一貫性が向上します。
インスタンス感知型マスク領域選択戦略は、テキスト制御可能性を高めます。