이 논문은 참조 객체 제거(ROR) 작업을 새로운 관점에서 재고한다. 이 분야의 일반적인 과제는 실제 세계의 국소적인 변화를 수집하는 것이다. 이를 해결하기 위해 ComCOCO라는 벤치마크 데이터셋을 제안한다. ComCOCO는 자연어 표현과 제거 후 배경 이미지로 구성된 23,951개의 이미지 쌍으로 구성된다.
또한 이 논문은 계층적 구문 인식 시각 주의 메커니즘과 하이브리드 매핑 채우기 모듈을 결합한 Syntax-Aware Hybrid Mapping(SAHM) 네트워크를 제안한다. SAHM 네트워크는 언어 특징을 시각 특징과 효과적으로 융합하고 세그멘테이션 마스크와 외부 의미 정보를 활용하여 결과 이미지를 생성한다.
실험 결과, SAHM 네트워크는 기존 접근법보다 제거 성능과 계산 오버헤드 측면에서 큰 폭으로 향상된 결과를 보여준다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы