本研究は、ドラッグベースの画像編集を高速かつ正確に行うLIGHTNINGDRAGという新しい手法を提案している。従来のドラッグベース編集手法は処理時間が長く、編集結果の品質も低いという課題があった。
LIGHTNINGDRAGでは、ドラッグベース編集をコンディショナル生成タスクとして再定義することで、時間のかかる潜在変数の最適化やグラデーションベースのガイダンスを必要としない。さらに、大規模なペアの動画フレームを学習データとして使うことで、物体の移動、姿勢の変化、ズームイン/アウトなどの変形を効果的に学習できる。
定量的・定性的な評価から、LIGHTNINGDRAGが従来手法と比べて高速かつ高品質な編集結果を生成できることが示された。特に、ユーザーの編集指示に忠実に従いつつ、元の画像の外観を保持する点が優れている。また、テスト時の技術的工夫により、さらに編集結果を改善できることも確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yujun Shi, J... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2405.13722.pdfYêu cầu sâu hơn