本文提出了一種基於深度集的新型網路架構 NACNet,用於從可能包含大量雜訊和異常值的點匹配集合中穩健地估計本質矩陣。
IllumiNeRF 提出了一種新的 3D 重打光方法,不需依賴逆向渲染,而是透過圖像擴散模型生成多個重打光圖像,再將其整合至單一 3D 模型中,實現高品質且有效率的重打光效果。
本文提出了一種基於區塊擴散的模型,用於從單一陰影圖像中重建多模態形狀分佈,模擬人類對多穩態感知的體驗,並探討了其在處理陰影形狀中固有模糊性方面的優勢。
本文提出了一種基於 Transformer 的新型自回歸模型 PT43D,用於從單張可能包含高度模糊物件觀察結果的 RGB 影像生成 3D 形狀的機率分佈,並透過模擬產生遮擋和視角截斷的影像-形狀訓練對,以及採用交叉注意力機制,有效提升模型在真實場景中的效能。
DeSparsify 是一種針對視覺 Transformer 中 Token 稀疏化機制的新型對抗性攻擊,它可以透過產生惡意樣本來耗盡系統資源,同時保持模型的原始分類結果,從而影響模型的可用性。
本文比較了 UNET 和堆疊式 UNET 兩種基於卷積神經網路 (CNN) 的架構,利用 APTOS 資料集進行糖尿病視網膜病變 (DR) 的自動診斷,發現堆疊式 UNET 模型在驗證指標方面優於基礎模型,顯示出更複雜的模型在提高圖像分類準確性方面的優勢。
本研究利用電腦視覺模型自動化評估線性迴歸模型殘差圖,以克服傳統視覺推論方法仰賴人工判斷、難以規模化的限制。
本文提出了一種基於無監督學習的動態上下文感知深度去噪框架,用於減少低劑量螢光影像中的雜訊並保留精細結構,克服了傳統方法在處理運動偽影和邊緣保留方面的局限性。
GenXD 是一個基於擴散模型的通用框架,可以從單張或多張圖像生成高品質、時空一致的 3D 和 4D 場景。
本文提出了一個基於先進電腦視覺技術的端到端框架,用於從高空無人機影像中提取地理參考車輛軌跡,為智慧城市交通監控提供精確且經濟高效的解決方案。