本文分析了使用機器學習模型構建的索引結構(稱為"學習索引")的理論性能。
首先,作者提出了一個更加一般化的概率模型,用於描述數據生成過程。在這個模型中,數據屬性X被建模為一個隨機過程,而不需要假設數據之間的獨立性。
作者證明了一種稱為"等分分段常數索引"(ESPC)的學習索引結構,可以在線性空間內實現常數期望查詢時間。這是目前已知的最佳理論上限。作者還引入了一個新的統計複雜度度量ρf,它與Rényi熵有關,可以幫助解釋為什麼某些數據集對學習索引方法來說特別具有挑戰性。
作者還討論了ESPC索引的設計細節,並將其與之前提出的其他學習索引方法進行了比較。結果表明,ESPC索引在理論上的性能優於之前的方法。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Luis Croquev... lúc arxiv.org 09-23-2024
https://arxiv.org/pdf/2405.03851.pdfYêu cầu sâu hơn