실제 번역 데이터셋에서 시각적 정보는 대부분 번역 성능 향상에 도움이 되지만, 텍스트 어휘가 이미지와 관련성이 낮아질수록 그 효과가 감소한다. 또한 텍스트와 시각 정보 간의 일관성이 중요하며, 이를 기반으로 한 필터링 기법이 성능 향상에 도움이 된다. 시각적 정보는 보조적인 역할을 하며, 추가적인 텍스트 정보로 대체할 수 있다.