이 논문은 자연어 표현에 따라 이미지에서 특정 객체를 제거하고 합리적인 시각적 의미로 채우는 새로운 다중 모달 작업인 참조 객체 제거(Referring Object Removal, ROR)를 제안한다.