핵심 개념
提案手法GLoD(Global-Local Diffusion)は、事前学習済みの拡散モデルを用いて、物体の相互作用(グローバルな文脈)と物体の詳細(ローカルな特徴)を同時に制御することができる。
초록
GLoDは、グローバルな文脈を記述するプロンプトとローカルな詳細を記述するプロンプトを入力として受け取り、それらのノイズを適切に合成することで、複雑なシーンを生成する。グローバルな文脈(例:男性が女性と話している)とローカルな詳細(例:男性は白髭を持っている、女性はイヤリングをつけている)を独立に指定できるため、グローバルな文脈を保ちつつ、ローカルな詳細を変更することが可能である。
定量的評価では、提案手法がグローバルな文脈とローカルな詳細の両方を効果的に制御できることを示している。また、定性的評価からも、複雑なシーンを生成できることが確認できる。
통계
男性は白髭を持っている
女性はイヤリングをつけている
男性と女性が会話している
인용구
"GLoD(Global-Local Diffusion)は、事前学習済みの拡散モデルを用いて、物体の相互作用(グローバルな文脈)と物体の詳細(ローカルな特徴)を同時に制御することができる。"
"グローバルな文脈(例:男性が女性と話している)とローカルな詳細(例:男性は白髭を持っている、女性はイヤリングをつけている)を独立に指定できるため、グローバルな文脈を保ちつつ、ローカルな詳細を変更することが可能である。"