GLoDは、グローバルな文脈を記述するプロンプトとローカルな詳細を記述するプロンプトを入力として受け取り、それらのノイズを適切に合成することで、複雑なシーンを生成する。グローバルな文脈(例:男性が女性と話している)とローカルな詳細(例:男性は白髭を持っている、女性はイヤリングをつけている)を独立に指定できるため、グローバルな文脈を保ちつつ、ローカルな詳細を変更することが可能である。
定量的評価では、提案手法がグローバルな文脈とローカルな詳細の両方を効果的に制御できることを示している。また、定性的評価からも、複雑なシーンを生成できることが確認できる。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Moyuru Yamad... klo arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15447.pdfSyvällisempiä Kysymyksiä