VidEdit은 시간적 일관성과 공간적 제어를 보장하는 효율적인 제로샷 텍스트 기반 비디오 편집 방법이다.
본 연구는 텍스트 프롬프트 기반 비디오 편집을 위한 효율적인 프레임워크인 MaskINT를 제안한다. MaskINT는 키프레임 편집과 구조 인식 프레임 보간이라는 두 단계로 구성되어 있으며, 이를 통해 기존 방식에 비해 더 빠른 처리 속도와 유사한 성능을 달성한다.