本文提出了一種名為MVGS的新優化方法,通過多視角監督和引導策略來改善高斯基於顯式表示的新視角合成性能。
本文提出了一種新的兩階段方法,可以可靠地估計任意3D形狀的完整方向,並將其旋轉到標準方向。
生物視覺系統能夠在物體外觀隨時間變化的情況下追蹤物體,這可能涉及利用神經同步來維持物體位置的特定注意機制。
我們提出了一個基礎模型,能夠在任意圖像上進行零樣本度量單眼深度估計。我們的模型Depth Pro能夠合成高分辨率的深度圖,擁有無與倫比的銳利度和高頻細節。這些預測是度量的,具有絕對尺度,無需依賴相機內參等元數據。而且模型速度很快,在標準GPU上只需0.3秒就能生成225萬像素的深度圖。
DisEnvisioner 能夠有效地提取和增強主體的關鍵特徵,同時過濾掉無關信息,從而實現卓越的定制化性能,無需繁瑣的調整或依賴多個參考圖像。
我們將場景流動重新定義為估計一個連續的時空偏微分方程,用於描述整個觀察序列的運動,並使用神經網絡先驗來表示。我們的方法EulerFlow通過優化這個神經網絡先驗來實現高質量的場景流動估計,並且無需任何監督。
SkyAI Sim是一個開源工具,可模擬無人機從衛星數據捕捉鳥瞰視角的航拍影像,為視覺導航等應用提供數據支持。
利用可穿戴式感測器捕捉兒童的第一人稱視角圖像,並開發一種多視角視覺語言模型,能夠準確識別不同類型的螢幕使用情況。
本研究提出了一種利用訓練好的U-Net分割模型從原始高分辨率透射電子顯微鏡(TEM)影像檢測組分和相分割的新穎工作流程。該方法可以加快組分檢測和相分割,減少人工審查大量TEM影像所需的時間和認知負擔,從而降低人為錯誤的可能性。這種方法不僅適用於電池領域,還可應用於其他相和組成分佈特徵的相關領域,如合金生產。
提出一種新的半脆弱隱形圖像水印技術,可以在保持高圖像質量的同時,對惡意的面部操作保持脆弱性,從而實現社交媒體圖像的認證和深度偽造的檢測。