In der sich schnell entwickelnden Bildsynthese steht die Linderung von Artefakten im Fokus, um die Qualität synthetischer Bilder zu verbessern. Durch die Feinabstimmung des Vision-Language-Modells (VLM) als Artefaktklassifizierer werden Artefakte identifiziert und klassifiziert. Eine umfassende Artefakt-Taxonomie wird entwickelt, und das SynArtifact-1K-Datenset wird erstellt. Das feinabgestimmte VLM zeigt eine überlegene Fähigkeit zur Identifizierung von Artefakten und übertrifft die Basislinie um 25,66%. Die Ausgabe des VLM wird genutzt, um das generative Modell zur Linderung von Artefakten zu optimieren.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Bin Cao,Jian... lúc arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18068.pdfYêu cầu sâu hơn