最近のテキストから画像、さらにはテキストからビデオへの進歩により、コンテンツ作成のアイデアが変革され、研究トピックや産業応用として広まっています。特に、テキストからビデオ(T2V)合成では、最近のビデオ拡散モデルは新しいビデオコンテンツの創造に向けた改善された可能性を提供しています。
現在のオープンソースT2Vモデルでは、制限された視覚変化と一貫した時間的ダイナミクスが問題となっています。これらの問題を緩和するため、「Generative Temporal Nursing」(GTN)コンセプトを導入しました。このGTN戦略はVSTARで構成されており、Video Synopsis Prompting(VSP)とTemporal Attention Regularization(TAR)という2つの主要な要素から構成されています。
VSTARは長い動画生成能力を向上させることが示されました。他のT2Vモデルと比較しても優れた結果が得られます。将来的な研究では、訓練中や推論時に追加負荷を導入しないように最適化されたGTN手法も探求しました。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yumeng Li,Wi... a las arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13501.pdfConsultas más profundas