核心概念
DM-Align 모델은 원본 이미지에 대한 설명과 편집 지침 간의 단어 정렬을 활용하여 이미지의 특정 부분을 효과적으로 변경하고 배경을 잘 보존할 수 있다.
摘要
DM-Align 모델은 텍스트 기반 이미지 편집을 위한 새로운 접근 방식을 제안한다. 이 모델은 원본 이미지에 대한 설명과 편집 지침 간의 단어 정렬을 활용하여 편집할 부분과 보존할 부분을 명확하게 구분한다.
구체적으로 다음과 같은 단계로 작동한다:
- 원본 이미지 설명과 편집 지침 간의 단어 정렬을 수행하여 변경해야 할 부분과 보존해야 할 부분을 식별한다.
- 단어 정렬 결과를 바탕으로 이미지 세그멘테이션을 수행하여 변경 및 보존 영역을 탐지한다.
- 전역 확산 마스크를 생성하여 편집의 일관성을 보장한다.
- 세그멘테이션 결과를 활용하여 확산 마스크를 정제한다.
- 정제된 마스크를 바탕으로 확산 모델을 이용하여 편집된 이미지를 생성한다.
이러한 접근 방식을 통해 DM-Align은 기존 모델에 비해 배경 보존 능력이 뛰어나며, 긴 텍스트 지침에 대해서도 효과적으로 대응할 수 있다.
統計資料
원본 이미지에 대한 설명과 편집 지침 간의 단어 정렬 결과를 활용하여 변경 및 보존 영역을 식별한다.
확산 모델을 이용하여 편집된 이미지를 생성한다.
引述
"텍스트 기반 의미론적 이미지 편집은 자연어 지침을 사용하여 이미지를 조작하는 것을 가정한다."
"우리는 텍스트 제어를 향상시키기 위해 이미지의 어떤 부분을 변경하거나 보존해야 하는지 명시적으로 추론하는 새로운 모델을 제안한다."