在處理大量資料時,從記憶體讀取和寫入資料 (輸入/輸出) 通常是效能瓶頸。傳統演算法分析著重於最壞情況下的效率,但這種方法可能無法充分利用現代電腦的快取記憶體架構。本文旨在設計出「實例最優」的演算法,這些演算法在任何輸入實例上都能達到最佳效率,並應用於輸入/輸出效率取樣和序列估計等問題。
序列估計是統計學中的一個重要領域,其目標是在達到預期準確度的前提下,盡可能減少所需的樣本數量。與傳統的固定樣本量估計方法不同,序列估計允許演算法根據已收集到的資料動態調整樣本量。本文利用來自理論電腦科學(特別是分佈測試)的技術,為以下問題提供了(接近)實例最優的序列估計器:
本文證明了序列估計設定與輸入/輸出效率計算設定之間存在著密切的聯繫。例如,在輸入/輸出模型中估計平均值的問題,與在序列估計設定中尋找塊平均值的實例最優演算法非常相似。
標準的實例最優性定義要求演算法在任何可能的輸入上都優於其他演算法。然而,在輸入/輸出效率取樣的背景下,標準的實例最優性定義過於嚴格,因為某些輸入順序可能會導致任何演算法都無法達到最佳效率。為了克服這個問題,本文採用了「順序無關實例最優性」的概念,該概念將輸入視為一個多重集合,並忽略元素的順序。
本文的主要貢獻包括:
本文研究了輸入/輸出效率取樣和序列估計中的實例最優性問題,並提出了一系列新穎的演算法和理論結果。這些結果有助於我們更好地理解如何在現代電腦架構上設計高效的資料處理演算法。
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shya... lúc arxiv.org 10-21-2024
https://arxiv.org/pdf/2410.14643.pdfYêu cầu sâu hơn