UniEditは、事前学習されたテキストからビデオを生成するジェネレータを活用し、ビデオのモーションと外観を統一的に編集することができる。モーション編集では、時間的自己注意層を活用してテキスト指導のモーションを注入し、空間的自己注意層を活用して元のビデオの内容を保持する。外観編集では、空間的自己注意層を活用して元のビデオの構造を保持する。