本文提出了DetailCLIP,一個針對CLIP及其變體在細粒度任務(如分割)中的局限性而設計的新框架。DetailCLIP通過注意力機制選擇性保留語義相關的圖像區域,並結合自蒸餾和像素重建損失,有效地捕捉高層次語義和細節視覺特徵,在細粒度任務中表現優異。