본 연구는 텍스트 기반 동영상 인페인팅을 위한 통합 프레임워크 AVID를 제안한다. AVID는 시간적 일관성을 보장하는 모션 모듈과 다양한 구조적 충실도 요구사항을 충족하는 구조 가이드 모듈을 통합한다. 또한 임의 길이의 동영상을 처리할 수 있는 제로샷 생성 파이프라인을 도입하여 실용적인 응용 분야에 적용할 수 있다.