사전 학습된 텍스트-비디오 확산 모델의 잠재 표현은 의미론적 일관성과 시간적 상관관계를 포함하고 있어, 비디오 이해 작업에 효과적으로 활용될 수 있다.
참조 비디오 객체 분할 모델은 텍스트 표현에 과도하게 집중하는 경향이 있어 객체의 외형 정보를 충분히 활용하지 못한다. 이를 해결하기 위해 장단문 텍스트 표현을 활용하여 객체의 외형 정보에 더 집중할 수 있도록 하고, 장단문 예측 간 교차 주의 메커니즘과 교차 예측 교차 손실을 도입하였다.