GLoDは、グローバルな文脈を記述するプロンプトとローカルな詳細を記述するプロンプトを入力として受け取り、それらのノイズを適切に合成することで、複雑なシーンを生成する。グローバルな文脈(例:男性が女性と話している)とローカルな詳細(例:男性は白髭を持っている、女性はイヤリングをつけている)を独立に指定できるため、グローバルな文脈を保ちつつ、ローカルな詳細を変更することが可能である。
定量的評価では、提案手法がグローバルな文脈とローカルな詳細の両方を効果的に制御できることを示している。また、定性的評価からも、複雑なシーンを生成できることが確認できる。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы