AI 생성 비디오의 품질을 시각적 조화, 비디오-텍스트 일관성, 도메인 분포 격차의 세 가지 차원에서 평가하고 개선한다.
AI 생성 모델의 발전에 따라 텍스트-비디오 생성 분야가 발전하고 있지만, 이에 대한 평가 방법은 아직 미흡한 실정이다. 본 연구에서는 AI 생성 비디오의 프레임 간 품질 차이를 효과적으로 포착할 수 있는 새로운 손실 함수와 중요 콘텐츠를 보존하는 샘플링 기법, 그리고 일반화 성능을 향상시키는 적대적 훈련 기법을 제안한다.