核心概念
本文提出了一種名為 PADFA 的新型態自動機,它結合了壓縮路徑技術和非循環確定性有限狀態自動機 (ADFA),有效提升了字串搜尋的空間和時間效率,尤其適用於處理大型字典和長字串。
論文資訊
Shibata, H., Ishihata, M., & Inenaga, S. (2024). Packed Acyclic Deterministic Finite Automata. arXiv preprint arXiv:2410.07602.
研究目標
本研究旨在開發一種新的索引結構,用於提升字串搜尋的效率,特別是在處理大型字典和長字串時。
方法
本文提出了一種名為 PADFA 的新型態自動機,它結合了壓縮路徑技術和非循環確定性有限狀態自動機 (ADFA)。
PADFA 利用對稱質心路徑分解 (SymCPD) 技術將 ADFA 中的特定路徑壓縮成單一字串,並使用偏向搜尋樹 (BST) 和完全可索引字典 (FID) 來處理剩餘的邊。
本文從理論上證明了 PADFA 在時間和空間複雜度方面的優勢。
主要發現
PADFA 的字串搜尋時間複雜度為 O(m/α + log k),其中 m 為字串長度,α 為每個機器字元可儲存的字元數,k 為字典大小。
當字串長度足夠長時,PADFA 的搜尋時間可達 O(m/α),為最佳時間複雜度。
當字典大小相對小於 minADFA 的狀態數時,PADFA 的空間複雜度優於 trie。
主要結論
PADFA 是一種高效的字串搜尋索引結構,尤其適用於處理大型字典和長字串。
研究意義
本研究為字串搜尋領域提供了一種新的高效索引結構,並為未來相關研究提供了理論基礎。
局限與未來研究方向
未來研究可探討將 PADFA 應用於其他字串處理任務,例如字串比對和字串壓縮。
可以進一步研究如何優化 PADFA 的實作,以提升其在實際應用中的效能。
統計資料
在 prot 資料集中,每個機器字元可儲存 α = 8 個字元。
prot 資料集由長字串組成,使用壓縮字串的 Apref、Apath 和 Amin 的空間效率明顯優於未使用壓縮字串的 Atrie 和 Amin。