核心概念
텍스트 프롬프트와 생성된 이미지 간의 정렬을 향상시키기 위해 이미지-텍스트 개념 매칭 메커니즘을 활용하는 CoMat 기술을 제안한다.
摘要
이 논문은 텍스트-이미지 생성 분야에서 발생하는 정렬 문제를 해결하기 위한 CoMat 기술을 제안한다.
먼저, 저자들은 텍스트 프롬프트와 생성된 이미지 간의 정렬 문제가 텍스트 토큰에 대한 주의 집중 부족에서 비롯된다는 것을 관찰했다. 이를 해결하기 위해 저자들은 이미지 캡셔닝 모델을 활용하여 생성된 이미지와 텍스트 프롬프트 간의 개념 매칭을 수행한다. 이를 통해 간과된 텍스트 토큰에 더 많은 주의를 기울이도록 확산 모델을 학습시킨다.
또한 저자들은 속성 집중 모듈을 도입하여 속성과 엔티티 간의 정렬을 향상시킨다. 마지막으로 생성 능력 보존을 위한 적대적 손실 함수를 추가한다.
제안된 CoMat 기술은 텍스트 프롬프트만을 사용하여 학습되며, 이미지-텍스트 쌍이나 사용자 선호도 데이터가 필요하지 않다. 실험 결과, CoMat은 기존 모델 대비 텍스트-이미지 정렬 성능을 크게 향상시켰다.
统计
현재 텍스트-이미지 확산 모델은 텍스트 프롬프트와 잘 정렬되지 않는 이미지를 생성하는 문제가 있다.
이는 텍스트 토큰에 대한 주의 집중 부족에서 비롯된다.
확산 모델의 학습 과정에서 텍스트 조건이 단순히 추가 정보로 사용되어 각 개념을 학습하지 못하기 때문이다.
引用
"The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation."
"We further attribute this phenomenon to the diffusion model's insufficient condition utilization, which is caused by its training paradigm."