本文提出了一種新的方法PixelCLIP,利用無標籤圖像和掩碼來微調預訓練的視覺語言模型,實現開放詞彙語義分割。為了解決利用無標籤掩碼作為監督信號的挑戰,我們提出了一種全局語義聚類的方法,並使用可學習的類別提示來表示每個聚類。