이 연구 논문에서는 텍스트-이미지 확산 모델에서 텍스트 설명과 생성된 이미지 간의 정렬을 개선하기 위해 고안된 RealignDiff라는 새로운 2단계 방법론을 제시합니다.
첫 번째 단계는 생성된 이미지 캡션과 주어진 텍스트 프롬프트 간의 의미적 불일치를 평가하기 위해 BLIP-2 모델을 활용하는 새로운 캡션 보상을 제안합니다. 이 캡션 보상은 텍스트-이미지 확산 모델을 전역적 의미 관점에서 최적화하는 데 사용됩니다. 즉, 생성된 이미지에 주어진 텍스트에 설명된 객체가 확실히 나타나도록 합니다.
두 번째 단계는 이전에 생성된 이미지를 로컬 의미 관점에서 구체화하기 위해 로컬 밀집 캡션 생성 모듈과 재가중치 주의 변조 모듈을 사용합니다. 로컬 밀집 캡션 생성 모듈은 생성된 이미지에 나타나는 각 객체의 마스크, 세부 캡션 및 해당 가능성 점수를 생성합니다. 재가중치 주의 변조 모듈은 생성된 세부 캡션과 해당 점수를 기반으로 생성된 캡션과 생성된 이미지의 분할된 부분을 다시 정렬합니다. 즉, 입력 텍스트에 있는 객체의 속성과 관계를 정확하게 캡처합니다.
MS-COCO 및 ViLG-300 데이터 세트에 대한 실험 결과는 제안된 2단계 거친-세밀 의미 재정렬 방법이 시각적 품질과 입력 프롬프트와의 의미적 유사성 모두에서 다른 기준 재정렬 기술보다 훨씬 뛰어난 성능을 보인다는 것을 입증합니다.
이 논문의 주요 기여는 다음과 같습니다.
이 논문에서 제안된 RealignDiff는 텍스트-이미지 확산 모델에서 설명과 해당 이미지 간의 정렬을 개선하기 위한 새로운 접근 방식을 제시합니다. 거친 의미 재정렬 단계는 생성된 이미지가 주어진 텍스트 입력 내에 설명된 객체와 엔티티를 충실하게 묘사하도록 보장하는 데 중요합니다. 세밀 의미 재정렬 단계는 추가 학습 데이터 없이 발생하여 객체 속성 및 관계를 정확하게 캡처할 수 있습니다. MS-COCO 및 ViLG-300 데이터 세트에 대한 실험 결과는 RealignDiff가 시각적 품질과 입력 프롬프트와의 의미적 유사성 측면에서 다른 기준선보다 뛰어난 성능을 보여줍니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Guian Fang, ... في arxiv.org 10-24-2024
https://arxiv.org/pdf/2305.19599.pdfاستفسارات أعمق