VideoElevatorは、T2Vベースラインのパフォーマンスを向上させるために、各サンプリングステップを明示的に分解し、時間的な動きの微調整と空間的な品質向上を行います。低域通過周波数フィルターを使用して高周波フリッカーを減少させ、T2VベースのSDEditを適用して自然な動きを描写します。また、DDIM逆変換法を使用してT2Iで必要とされるノイズ潜在変数を計算します。空間的な品質向上では、T2Iの自己注意力を拡張し、写真実現的な詳細情報を提供します。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yabo Zhang,Y... kl. arxiv.org 03-11-2024
https://arxiv.org/pdf/2403.05438.pdfDybere Forespørgsler