近年來,擴散模型 [15,29,35,41] 已廣泛應用於各種圖像生成任務,包括文本到圖像生成 [31, 34, 38]、圖像編輯 [3,5,6,58]、可控生成 [25,28,53,59] 和主題驅動生成 [16,36,37,56]。
圖像合成 [30, 43, 51] 一直是計算機視覺中的一個重要研究領域,其重點是將一幅圖像的前景與另一幅圖像的背景相結合,以創建一幅連貫的合成圖像。
本文詳細介紹了食品合成數據集 FC22k 的自動構建過程,如圖 1 所示。該過程包括五個主要階段:圖像預處理、前景獲取、前景生成、背景生成和評估。通過這些階段,我們創建了一個用於食品圖像合成的大規模、高質量數據集,其中包含 22,000 個前景 (If)、背景 (Ib) 和真實圖像 (GT) 三元組圖像對。
在本節中,我們介紹 Foodfusion,如圖 3 所示,它通過自動調整前景的大小、角度和位置,將輸入的前景食品圖像 If 無縫集成到用戶提供的背景 Ib 中,以創建高質量、位置適當且構圖良好的合成圖像 Ic,利用大規模預訓練的潛在擴散模型和兩個關鍵模塊——融合模塊,在穩定擴散模型中協調前景和背景,以及內容結構控制模塊,確保在整個融合過程中像素級內容與背景的一致性。
在本節中,我們使用新引入的 FC22k 數據集評估了所提出的 Foodfusion 方法的有效性。 我們詳細介紹了實驗設置,包括數據集規範、評估指標和實施程序。 我們全面評估了我們的方法,並討論了它在實際應用中的潛力。
在本文中,我們通過引入大規模、高質量的數據集 FC22K 和一種名為 Foodfusion 的新方法來應對食品圖像合成的挑戰。 FC22k 由 22,000 個前景、背景和真實圖像對組成,專為食品圖像合成而設計,填補了現有數據集的一個關鍵空白。 Foodfusion 利用預先訓練的擴散模型,並結合了融合模塊 (FM) 和內容結構控制模塊 (CSCM),以確保前景和背景元素的無縫集成。 在 FC22k 數據集上進行的大量實驗證明了我們方法的有效性和可擴展性,為食品圖像合成任務建立了新的基準。 我們的結果表明,與以前的方法相比,圖像質量和一致性有了顯著提高,以前的方法通常依賴於單獨的子任務,並且在保留紋理和顏色等細節特徵方面需要幫助。 未來的工作將增強我們模型的功能,並將其適用性擴展到其他領域。
翻譯成其他語言
從原文內容
arxiv.org
深入探究