Core Concepts
拡散モデルは、テキストに記述された物体間の関係性を正確に表現することが困難であるが、提案手法RRNetを用いることで、この問題を解決できる。
Abstract
本研究では、拡散モデルが物体間の関係性を正確に表現できるようにする新しいタスク「関係性の修正」を提案している。
まず、拡散モデルの内部動作を分析し、テキストの最後の特殊トークン[EOT]の埋め込みが関係性表現に重要な役割を果たしていることを発見した。しかし、物体の位置が逆転したテキストプロンプト(OSP)の[EOT]埋め込みは区別できないことが問題となっていた。
そこで、RRNetと呼ばれる新しいフレームワークを提案した。RRNetは、OSPをヘテロジニアスグラフとして表現し、グラフ畳み込みネットワーク(HGCN)を用いて[EOT]埋め込みを修正する。これにより、拡散モデルが物体間の関係性を正確に表現できるようになる。
提案手法は、関係性生成精度を最大25%向上させつつ、画像の質も保持できることを示した。また、未知の物体に対しても頑健に機能することを確認した。
Stats
物体の位置が逆転したテキストプロンプト(OSP)の[EOT]埋め込みは非常に類似しており、区別が困難である。
[EOT]埋め込みをマスクすると、生成された画像の関係性を含む意味が大きく損なわれる。
Quotes
"拡散モデルは、テキストに記述された物体間の関係性を正確に表現することが困難である。"
"提案手法RRNetを用いることで、この問題を解決できる。"