本論文では、GEOと呼ばれる画像編集手法を提案している。GEOは、テキストプロンプトと画像プロンプトを組み合わせることで、多様かつ精密な編集結果を生成できる。
主な特徴は以下の通り:
訓練不要で、2つの主要な貢献により実現される:
公開されているStable Diffusionモデルを活用し、様々な画像タイプや編集シナリオで高品質な編集結果を一貫して生成できる。
ユーザーが任意の長さのテキストプロンプトを入力でき、オブジェクトを記述できるため、CLIPモデルに関連する単語の汚染問題を解決できる。
幾何学的蓄積損失関数により、編集対象外の領域の詳細を保持できる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yan Zheng, L... lúc arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.11734.pdfYêu cầu sâu hơn