本研究では、拡散モデルが物体間の関係性を正確に表現できるようにする新しいタスク「関係性の修正」を提案している。
まず、拡散モデルの内部動作を分析し、テキストの最後の特殊トークン[EOT]の埋め込みが関係性表現に重要な役割を果たしていることを発見した。しかし、物体の位置が逆転したテキストプロンプト(OSP)の[EOT]埋め込みは区別できないことが問題となっていた。
そこで、RRNetと呼ばれる新しいフレームワークを提案した。RRNetは、OSPをヘテロジニアスグラフとして表現し、グラフ畳み込みネットワーク(HGCN)を用いて[EOT]埋め込みを修正する。これにより、拡散モデルが物体間の関係性を正確に表現できるようになる。
提案手法は、関係性生成精度を最大25%向上させつつ、画像の質も保持できることを示した。また、未知の物体に対しても頑健に機能することを確認した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yinwei Wu,Xi... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20249.pdfDeeper Inquiries