核心概念
本文提出了一種新的方法,利用預先訓練的文字轉圖像校正流模型作為先驗,用於圖像編輯和文字轉 3D 生成等任務,並證明其在生成品質和效率方面優於基於擴散的方法。
摘要
將文字轉圖像的校正流作為即插即用先驗研究論文摘要
研究目標: 本研究旨在探討如何利用預先訓練的文字轉圖像校正流模型作為先驗,以提升圖像生成網路在圖像編輯和文字轉 3D 生成等應用上的效能。
方法:
- 本研究基於廣義隨機插值框架,提出了三種方法:RFDS、iRFDS 和 RFDS-Rev。
- RFDS(校正流蒸餾採樣)作為基準方法,類似於擴散模型中的 SDS 損失,透過反轉流匹配訓練過程來計算輸入圖像的梯度。
- iRFDS(反向 RFDS)利用校正流的時間對稱性,透過優化隨機採樣的輸入雜訊來執行圖像反演和編輯。
- RFDS-Rev(RFDS 反轉)透過迭代應用 iRFDS 進行流反轉以確定原始雜訊,並使用 RFDS 進行知識蒸餾以改進輸入,從而提升 RFDS 的生成品質。
主要發現:
- RFDS 基線方法在與 InstaFlow 整合時,效能與基於擴散的 SDS 損失相當;與 Stable Diffusion v3 結合使用時,RFDS 基線方法顯著提升了生成品質。
- RFDS-Rev 方法顯著提升了 InstaFlow 的生成效能,適度提升了 SD3 的效能,並略微提升了擴散模型的效能。
- 在文字轉 3D 生成任務中,RFDS 和 RFDS-Rev 方法均能生成高品質的 3D 物件,其中 RFDS-Rev 方法在物件細節和顏色準確度方面優於 RFDS 基線方法。
- iRFDS 方法在圖像反演和文字引導編輯方面表現出強大的能力,與基於擴散的零反演相比,具有高度競爭力。
主要結論:
- 本研究提出的基於校正流的先驗方法,在文字轉 3D 生成和圖像編輯任務中,表現優於基於擴散的先驗方法。
- 校正流模型作為一種新興的生成模型,具有巨大的應用潛力,未來可以進一步探索其在其他領域的應用。
意義: 本研究為校正流模型作為即插即用先驗提供了首批研究,證明了其在生成任務(如文字轉 3D 生成)以及真實圖像的反演和編輯方面的有效性,顯著擴展了預先訓練的校正流模型的潛在應用。
限制和未來研究:
- 由於 2D 模型缺乏相機姿態資訊的訓練,本研究提出的方法在 3D 生成中遇到了與 SDS 和 VSD 損失類似問題,例如多面問題。未來可以透過使用多視圖數據訓練姿態感知模型來解決這些限制。
- 目前,iRFDS 方法尚未考慮 CFG 不匹配問題。未來一個有前景的方向是將 iRFDS 方法與零反演相結合,以解決 CFG 問題。
統計資料
在 T3Bench 數據集上進行的文字轉 3D 測試中,RFDS-Rev 方法在所有 2D 提升方法中取得了最高的效能,超越了各種基於擴散的先驗方法。
在 2D 圖像編輯的量化實驗中,iRFDS + InstaFlow 在 CLIP 分數和使用者偏好方面均取得了最佳效能。