In der sich schnell entwickelnden Bildsynthese steht die Linderung von Artefakten im Fokus, um die Qualität synthetischer Bilder zu verbessern. Durch die Feinabstimmung des Vision-Language-Modells (VLM) als Artefaktklassifizierer werden Artefakte identifiziert und klassifiziert. Eine umfassende Artefakt-Taxonomie wird entwickelt, und das SynArtifact-1K-Datenset wird erstellt. Das feinabgestimmte VLM zeigt eine überlegene Fähigkeit zur Identifizierung von Artefakten und übertrifft die Basislinie um 25,66%. Die Ausgabe des VLM wird genutzt, um das generative Modell zur Linderung von Artefakten zu optimieren.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Bin Cao,Jian... ที่ arxiv.org 02-29-2024
https://arxiv.org/pdf/2402.18068.pdfสอบถามเพิ่มเติม