本文提出三種改進 CycleGAN 循環一致性損失的方法,以生成更真實的圖像,並通過馬變斑馬的實驗證明了其有效性。
微調後的擴散模型的權重空間可以表現為一個可解釋的元潛在空間,能夠產生新的模型,並支持對視覺概念進行採樣、編輯和反轉等操作。
虛擬染色技術雖然前景廣闊,但其產生的幻覺現象可能會誤導臨床診斷,因此需要開發可靠的幻覺檢測方法來提高其可信度。
本文提出了一種名為 N4DE 的新方法,用於從二維圖像序列重建具有大拓撲變化的四維場景。
本研究提出了一種無監督的多視角無人機影像地理定位方法,透過迭代渲染技術將無人機影像與衛星影像進行匹配,無需標註數據或模型微調,即可實現高精確度的地理定位。
此研究提出了一個基於 AI 的框架,用於分析時尚產品圖像,量化設計特徵對產品流行度的影響,並指導新產品設計,以提高市場吸引力。
本文提出了一種名為 ESC-Net 的新型單階段開放詞彙語義分割模型,該模型利用預先訓練的 SAM 解碼器區塊和從圖像-文本關聯性生成的偽提示,在高效的推理框架內實現了類別無關的分割,並在 ADE20K、PASCAL-VOC 和 PASCAL-Context 等標準基準測試中實現了優於先前方法的效率和準確性。
本文提出了一種名為 XBind 的新型統一框架,用於從任意模態(包括文字、圖像和音訊)生成 3D 物件,解決了現有 3D 生成模型僅限於單一模態的限制。
本文提出了一種名為「雙層級聯合適應與反遺忘」(DJAA)的框架,用於解決無監督人員再識別(ReID)模型在適應新數據時容易遺忘先前學習知識的問題,並提升模型對未見數據的泛化能力和向後兼容性。
隨著基於視覺的監控系統的普及,影片異常檢測 (VAD) 技術在保護個人隱私方面面臨著越來越大的挑戰。本文綜述了保護隱私的影片異常檢測 (P2VAD) 的最新進展,探討了從數據採集、模型學習到系統應用等不同階段的隱私保護方法,並分析了它們的優缺點、潛在關聯以及未來的發展方向。