本文提出了一種名為ReM的原則性和高效的後處理方法,用於從雜訊測量中重建邊際查詢的答案。ReM利用邊際和殘差之間的內在關係,可以在高維數據領域中進行有效的重建。我們還提出了GReM-LNN,這是一種在高斯噪聲下重建邊際的擴展方法,滿足一致性和局部非負性,通常可以降低重建答案的錯誤。
利用深度神經網路的出色記憶能力,提供更好的存儲成本、更低的延遲和更小的運行時內存占用,同時實現無損壓縮和高效查詢。
我們開發了正式的隱私機制,用於發佈具有許多異常值的數據的統計數據,這些機制確保每筆記錄的差分隱私保證隨記錄對發佈統計的影響而緩慢降低。
本文提出了一種新的資料比例檢測方法,能夠自動估算大型語言模型的預訓練資料比例,以優化資料管理並提高模型性能。
本研究提出了一種名為E-SQL的新管線,透過直接將相關資料庫項目和可能條件納入自然語言問題,來解決文字到SQL轉換任務中的資料庫架構連結挑戰。
本研究擴展了傳統的阻塞度量指標,以納入公平性,提供了一個評估阻塞技術偏差的框架。通過實驗分析,我們評估了各種阻塞方法的有效性和公平性,並提供了關於其潛在偏差的見解。我們的發現突出了在資料整合任務中,特別是在阻塞階段考慮公平性的重要性,以確保公平的結果。
本文提出了一個簡單的分支定界算法,並證明了它在某些類別的資料庫實例上達到最壞情況最優性。此外,我們還展示了如何將這個算法轉化為一個能夠在預期時間內均勻抽樣查詢答案的算法。
選擇合適的資料庫是開發專案的關鍵,需要根據資料結構和查詢需求來評估關係型資料庫和非關係型資料庫的優缺點,並選擇最適合的解決方案。
本文證明了使用機器學習模型的索引結構可以在線性空間內實現常數期望查詢時間,這是目前最佳的理論上限。此外,本文還引入了一個新的統計複雜度度量,可以幫助解釋為什麼某些數據集對這些方法來說特別具有挑戰性。
YORO是一種新的訓練範式,通過在合成的文本到SQL數據上對專家模型進行微調,來獲取資料庫知識,從而在推理時無需訪問資料庫即可回答問題。