본 연구는 안정 확산 모델의 관계 생성 능력을 향상시키기 위한 새로운 접근법을 제안한다. 기존 모델은 텍스트 프롬프트에 포함된 방향성 있는 관계를 정확하게 표현하지 못하는 문제가 있었다.
이를 해결하기 위해 저자들은 관계 정정(Relation Rectification)이라는 새로운 과제를 정의하였다. 이 과제는 동일한 관계 단어를 포함하지만 객체 순서가 반대인 프롬프트 쌍(OSP)을 활용하여 모델이 관계 방향성을 정확하게 구분할 수 있도록 한다.
저자들은 HGCN 기반의 RRNet 모델을 제안하였다. RRNet은 OSP를 이종 그래프로 모델링하고, 이를 통해 텍스트 임베딩의 [EOT] 토큰을 조정함으로써 관계 방향성을 명확히 표현할 수 있도록 한다. 이 과정에서 객체 노드의 의미를 분리하여 관계 정보만을 효과적으로 학습할 수 있도록 하였다.
실험 결과, RRNet은 기존 모델 대비 관계 생성 정확도를 최대 25% 향상시켰으며, 생성된 이미지에서 관계 방향성을 명확하게 표현할 수 있었다. 또한 RRNet은 데이터셋에 등장하지 않은 객체에 대해서도 효과적으로 일반화되는 것으로 나타났다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yinwei Wu,Xi... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20249.pdfYêu cầu sâu hơn