이미지 캡셔닝 모델은 마스킹된 이미지에서도 원본 콘텐츠와 유사한 설명을 생성할 수 있으며, 마스킹된 영역의 크기가 증가할수록 성능이 저하되지만 중요한 영역이 가려지지 않는 경우 여전히 우수한 성능을 발휘한다.