GLoDは、グローバルな文脈を記述するプロンプトとローカルな詳細を記述するプロンプトを入力として受け取り、それらのノイズを適切に合成することで、複雑なシーンを生成する。グローバルな文脈(例:男性が女性と話している)とローカルな詳細(例:男性は白髭を持っている、女性はイヤリングをつけている)を独立に指定できるため、グローバルな文脈を保ちつつ、ローカルな詳細を変更することが可能である。
定量的評価では、提案手法がグローバルな文脈とローカルな詳細の両方を効果的に制御できることを示している。また、定性的評価からも、複雑なシーンを生成できることが確認できる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Moyuru Yamad... kl. arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15447.pdfDybere Forespørgsler