核心概念
微調後的擴散模型的權重空間可以表現為一個可解釋的元潛在空間,能夠產生新的模型,並支持對視覺概念進行採樣、編輯和反轉等操作。
本研究探討了由大量客製化擴散模型所構成的權重空間。我們透過創建一個包含超過 60,000 個模型的數據集來填充這個空間,每個模型都是一個經過微調的基礎模型,用於插入不同人物的視覺身分。我們將這些權重的底層流形建模為一個子空間,我們稱之為 weights2weights (w2w)。我們展示了這個空間的三個直接應用,這些應用可以產生新的擴散模型:採樣、編輯和反轉。首先,從這個空間中採樣一組權重會產生一個編碼了新身分的模型。接下來,我們在這個空間中找到對應於身分語義編輯(例如,添加鬍鬚)的線性方向,從而產生一個編輯了原始身分的模型。最後,我們展示了將單個圖像反轉到這個空間中,即使輸入圖像超出分佈(例如,一幅畫),也能將真實身分編碼到模型中。我們進一步發現,擴散模型權重空間的這些線性特性可以擴展到其他視覺概念。我們的結果表明,微調後的擴散模型的權重空間可以表現為一個可解釋的元潛在空間,能夠產生新的模型。
本研究旨在探討客製化擴散模型的權重空間是否可以表現為一個可解釋的元潛在空間,並探索其在視覺概念生成和編輯方面的應用。